1.概念或类(lei)描述
概(gai)念(nian)描(miao)述(shu)以简洁汇总的(de)形(xing)式描(miao)述(shu)给定的(de)任务(wu)相关数(shu)(shu)据(ju)集,提供数(shu)(shu)据(ju)价值的(de)一般特性,主(zhu)要应(ying)用于描(miao)述(shu)式数(shu)(shu)据(ju)挖掘。概(gai)念(nian)或类描(miao)述(shu)由特征化和区(qu)分(fen)组成,大体有两种方(fang)法:基于数(shu)(shu)据(ju)立(li)方(fang)体OLAP的方法和面向属性归纳的方法。包括以下技术:数据聚焦、通过属性删除或属性概化的概化数据、计数和聚集值累计、属性概化控制和概化数据可视化。与机器学习算法相比,面向数据库的概念描述保证了大型数据仓库中数据的有效性和可伸缩性。对基本方法加以修正,概念描述挖掘以增量方式、并行方式或分布方式进行。
2.关联分析
关(guan)联(lian)(lian)分(fen)(fen)析(xi)能(neng)够发现关(guan)联(lian)(lian)规则,这些规则展示属性频繁(fan)地在给(ji)定数据(ju)集中(zhong)一起出现的条件。关(guan)联(lian)(lian)分(fen)(fen)析(xi)广泛用于购物篮分(fen)(fen)析(xi)、商(shang)务(wu)管理和决策分(fen)(fen)析(xi),是商(shang)业分(fen)(fen)析(xi)中(zhong)应(ying)用最为广泛的一种(zhong)数据(ju)挖掘方法和模式。有效的算法包括(kuo)Apriori算法和频繁模式增长(FP增长)算法,注重多层关联规则、多维关联规则和基于约束的关联规则的挖掘。
3.分类和(he)预测(ce)分析
分(fen)类和预测(ce)是数据(ju)分(fen)析的两种重(zhong)要形(xing)式(shi),可以用于提取描述(shu)重(zhong)要数据(ju)类的模型或(huo)预测(ce)未来的数据(ju)趋势。主要方法如下(xia)
① 决(jue)策(ce)树/判定树(Decision Tree),算法有ID3和C4.5、剪枝叶算法,以及SIIQ、SPRINT、RainForest和PUBLIC等可伸缩算法。
② 贝叶斯分类(Naive Bayesian Classification)和贝叶斯置信网络(Bayesian Belief Network),这两种(zhong)方法都基于贝叶斯后验概率定理(li)。
③ 后(hou)向传播,是一种(zhong)用于分类的神经网络算法,使用梯(ti)度下(xia)降(jiang)方法。
④ 关联挖掘技术在(zai)大(da)型数据合库(ku)中搜索频繁出现的模式,可以用于分类。
⑤ K-最近邻分类和基(ji)于(yu)案例的推理是(shi)基(ji)于(yu)要(yao)求的分类方法。
⑥ 在(zai)遗(yi)传算法中(zhong),规(gui)则群(qun)体通过交(jiao)叉和变异操作进化,直到群(qun)体中(zhong)所有的规(gui)则都满足指定的阀值。
⑦ 粗(cu)糙集理(li)论可(ke)以用来(lai)近似地(di)定义类(lei),这(zhei)些(xie)类(lei)根据可(ke)用的属性是不可(ke)区分(fen)的。
⑧ 模糊(hu)集方法用隶(li)属(shu)(shu)函(han)数(shu)替换连续值属(shu)(shu)性的陡(dou)峭罔值。
⑨ 多策(ce)略学习(xi)方法。
⑩ 线性(xing)、非线性(xing)和(he)广义线性(xing)回归模(mo)型(xing)都可以用于预(yu)测(ce)。
4.聚类分析
聚(ju)(ju)类(lei)分(fen)(fen)标属于无指导学习。对象根据(ju)最(zui)大化类(lei)内(nei)(nei)的相似性和最(zui)小化类(lei)内(nei)(nei)的相似性原则进行聚(ju)(ju)类(lei)或(huo)分(fen)(fen)组(zu)。聚(ju)(ju)类(lei)分(fen)(fen)析(xi)有(you)广泛(fan)的应(ying)用(yong),包(bao)括市(shi)场(chang)或(huo)客(ke)户细(xi)分(fen)(fen)、模(mo)式(shi)识别(bie)、生物学研究、空(kong)间数据(ju)分(fen)(fen)析(xi)、Web文档分类及其他方面。它可以用作独立的数据挖掘工具来了解数据分布,也可以作为其他数据挖掘算法的预处理步骤。许多聚类算法已经被开发出来。主要包括以下几种。
① 划分方法,算法有K-均值、K-中心点,CLARANS和它们改进算法。
② 层(ceng)(ceng)(ceng)次(ci)方法,根据层(ceng)(ceng)(ceng)次(ci)分(fen)解的(de)形成(cheng)过程可(ke)分(fen)为凝(ning)聚(ju)(ju)法和分(fen)裂法。层(ceng)(ceng)(ceng)次(ci)方法可(ke)集成(cheng)其他聚(ju)(ju)类技术,如选(xuan)代重定位、DENCLUE来改进。
③ 基于密度的方法,DBSCAN是一种基于高密度连接区域的密度聚类方法,OPTICS是一种通过对象排序识别聚类结构的方法,DENCLUE是一种基于密度分布函数的聚类方法。
④ 基于网格(ge)的方法(fa),STING是基于网格方法的一个有代表性的算法,它基于存储在网格单元中的统计信息聚类。CLIQUE和Wave Cluster是两个既基于网格又基于密度的聚类算法。
⑤ 基于模型(xing)的方法,包括统(tong)计学方法(如COBWEB、CLASSIT和Auto Class)和神经网络方法(如有竞争学习和自组织特征映射)。
⑥ 模糊聚(ju)类(lei)方法。
5.孤立点分析
孤(gu)立点分析对于欺诈探测、定制市场(chang)医疗分析及其他任务是非常有用的(de)。孤(gu)立点挖掘方法包括统计学方法、距(ju)离法和偏差法。
6.演变分析
演(yan)变分(fen)析(xi)(xi)描述行为随时(shi)间(jian)变化(hua)的对象的规(gui)律(lv)或趋(qu)势并(bing)对其建(jian)模(mo),包括时(shi)间(jian)序(xu)列数据分(fen)析(xi)(xi)、序(xu)列或周期模(mo)式(shi)匹配和基(ji)于(yu)(yu)类似(si)性的数据分(fen)析(xi)(xi)。演(yan)变分(fen)析(xi)(xi)可用(yong)于(yu)(yu)趋(qu)势分(fen)析(xi)(xi)、相似(si)性搜素,以及与时(shi)间(jian)有关的序(xu)列模(mo)式(shi)挖掘和周期模(mo)式(shi)挖掘。
7.复杂类型的(de)数(shu)据挖掘
复杂类型(xing)的(de)(de)数(shu)(shu)据挖掘(jue)是当(dang)前数(shu)(shu)据挖掘(jue)技术的(de)(de)一个重要(yao)的(de)(de)研(yan)究(jiu)领域,它极大提升了(le)数(shu)(shu)据分析能(neng)力的(de)(de)深度和广度,主要(yao)方法包括对象数(shu)(shu)据挖掘(jue)、空间数(shu)(shu)据挖掘(jue)、多媒体数(shu)(shu)据挖掘(jue)、时序和序列数(shu)(shu)据挖掘(jue)、文本挖掘(jue)和Web挖掘等。
悟空CRM产品更多介绍:fl518.com.cn