利用数据库技术分析大数据技术原理?
数据挖掘中数据筛选的算法分析主要有以下几种。
分类算法分析
分类数据挖掘就是找出常见事物的相同属性,以及不同事物之间的差异。利用发现的相似或不同之处对事物进行分类。决策树的优点是描述简单,在数据量较大的情况下仍然可以快速的对数据进行分类。分类算法通常基于决策树来实现。设置的分类类别都是用叶子节点表示的,中间节点用来表示事物的属性。在构造决策树的时候,决策树不是完全不变的,而是不断变化和完善的。通常,建立的决策树会被实验。如果决策树对所有给定对象的分类结果可以不满足预期要求,将通过添加一些特殊示例来改进。这个过程会在后续的实验中继续,直到决策树能够对给定的事物进行准确的分类,形成更完善的决策树。
分类算法广泛用于建立模型,并且经常用于信用和客户类别分析模型。在邮件营销中,可以利用这种分类算法对现有客户的过往消费信息进行分析,得到购买力高的客户特征列表,从而对这类客户进行精准营销,获取更多客户。在建立模型时,利用决策树方法对前期信息进行分类,得到前期消费者的共同点,收集他们的共同特征,得到消费者的主要特征。最后得到一个可以判断客户的决策树,这样就可以判断剩下的客户,得到更有价值的潜在客户列表。这种方法是在对现有信息进行分析和分类的基础上,将现有信息分为不同的类别,使企业能够更有针对性地为不同群体提供服务,从而提高企业决策的效率和准确性。
聚类算法分析
聚类算法的作用是将具有相同特征的事物进行分组,也叫分组分析。聚类算法可以用来粗略判断对象被分成多少组,并提供每组数据的特征值。在聚类分析中,给定的例子可以分为不同的类别,同一类别中的例子是相关的,但它们之间并不相关。聚类算法的重要部分是分类步骤。在对给定的例子进行分类时,需要先选择一个样本作为样本的中心,然后选择中心距离,将小于中心距离的例子归入一个集合,其余大于中心距离的例子归入另一个集合。然后从剩余的样本中选择一个新的中心,重复上述步骤,不断形成新的类别,直到所有样本都包含在集合中。
从以上步骤可以看出,聚类算法在分类中的速度受给定中心距离的影响。如果给定的中心距离较小,类别会相对增加,从而降低分类速度。同样,在聚类算法中,确定实例被划分到的类别的数量也是非常重要的。如果分类很多,不仅会花费太多的分类时间,还会失去分类的意义。但是,没有最佳方法来确定应该划分多少个类别,只有可以通过估算来计算。聚类算法处理的数据在同一类中非常接近,在不同类中差异很大。在聚类算法中,数据之间的间隔通常用距离来表示,也就是说,数据之间的任何距离都可以通过函数转换成实数。通常实数越大,距离越远。
关联算法分析
关联算法用于表达两个事物之间的关系或依赖关系。事物之间的关联通常有两种,一种叫相关,一种叫关联。两者都是用来表示事物的关联性,但前者通常是用来表示互联网内容和文档的关联性,后者通常是用来表示电子商务中各种网站的产品之间的关系,但两者并无本质区别。由于关联算法是用来表达两个事物之间的关系或依赖关系的,所以需要对相关性进行定量的度量。这个概念叫做支撑,即一种商品出现时,另一种商品伴随出现的概率。
关联算法的数据挖掘通常分为两步。第一步,找到集合中出现频率高的项目组,作为整个记录必须达到一定的级别。一般认为设置需要分析实体之间的支持。如果两个实体之间的支持度大于设定值,则称为高频项目组。第二步,用第一步找到的高频项目组来确定它们之间的关系,通常用它们之间的概率来表示。即计算A事件发生时B事件发生的概率,公式为(A和B同时发生的概率)/(A发生的概率)。只有当比率满足既定的概率时,才能解释这两个事件有关联。关联分析可以从数据库中找出现有数据之间隐藏的关系,从而利用这些数据获取潜在的价值。