数据挖掘的名词解释?
数据挖掘是指通过算法从大量数据中寻找隐藏信息的过程。
数据挖掘通常与计算机科学有关,通过统计学、联机分析处理、信息检索、机器学习、专家系统(依靠过去的经验规则)、模式识别等多种方法来实现上述目标。
数据挖掘对象
1.数据类型可以是结构化的、半结构化的,甚至是异构的。发现知识的方法可以是数学的、非数学的、归纳的。最终发现的知识可用于信息管理、查询优化、决策支持和数据维护。
2.数据挖掘的对象可以是任何类型的数据源。可以是关系数据库,是包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时间序列数据、W
数据挖掘分类方法有哪些?
数据挖掘的分类方法如下:
(1)决策树
决策树归纳是一种经典的分类算法。它采用自顶向下的递归分治法构造决策树。信息增益度量用于在树的每个节点选择测试属性。可以从生成的决策树中提取规则。
(2)KNN法(K-最近邻法)
KNN法,即K近邻法,最早由Cover和Hart于1968年提出,是理论上比较成熟的方法。这种方法的思路非常简单直观:如果一个特征空间中的k个最相似样本中的大部分属于某个类别,那么这个样本也属于这个类别。这种方法只根据分类决策中最近的一个或几个样本的类别来确定待分类样本的类别。
(3)SVM方法
SVM(SupportVectorMachine)方法是由Vapnik等人在1995年提出的,具有相对优良的性能指标。该方法是一种基于统计学习理论的机器学习方法。通过学习算法,SVM可以自动找到那些具有良好分类能力的支持向量,由此构造的分类器可以最大化类间间隔,因此具有更好的适应性和更高的分类率。该方法只需要根据不同领域中边界样本的类别来确定最终的分类结果。
(4)VSM方法
VSM方法是向量空间模型(向量空间模型)EModel)方法,由Salton等人于20世纪60年代末提出。这是最早也是最著名的信息检索数学模型。基本思想是将文档表示为加权特征向量:DD(T1,w1;T2,W2;…;Tn,Wn),然后通过计算文本相似度来确定待分类样本的类别。当文本表示为空间向量模型时,文本的相似度可以用特征向量之间的内积来表示。
存在