过去的(de)(de)(de)数(shu)十年(nian)中,产生和(he)收(shou)集数(shu)据(ju)(ju)的(de)(de)(de)能力已经迅速提高,存在(zai)大且数(shu)据(ju)(ju)可以被(bei)广泛利用。数(shu)据(ju)(ju)的(de)(de)(de)丰富带来(lai)了对强有力的(de)(de)(de)数(shu)据(ju)(ju)分析工具(ju)的(de)(de)(de)需(xu)求(qiu),决策者迫切(qie)需(xu)要(yao)从海量数(shu)据(ju)(ju)中提取有价值的(de)(de)(de)信息和(he)知识。数(shu)据(ju)(ju)和(he)信息之间的(de)(de)(de)鸿沟要(yao)求(qiu)系(xi)统(tong)地开发(fa)知识发(fa)现工具(ju),将(jiang)数(shu)据(ju)(ju)“坟墓”转换成知(zhi)识“金块”。数据挖(wa)掘(jue)就是为满足从数据中挖(wa)掘(jue)知(zhi)识的需要而发展(zhan)起来的一门交叉学科。
数(shu)(shu)据(ju)(ju)(ju)(ju)挖掘(jue)也是信息(xi)技术(shu)自然演化(hua)的(de)(de)结(jie)果。信息(xi)技术(shu)的(de)(de)发(fa)展(zhan)历程(cheng)可归结(jie)为(wei)数(shu)(shu)据(ju)(ju)(ju)(ju)收集和(he)(he)数(shu)(shu)据(ju)(ju)(ju)(ju)库创建(jian)、数(shu)(shu)据(ju)(ju)(ju)(ju)管理,以(yi)(yi)及数(shu)(shu)据(ju)(ju)(ju)(ju)分析(xi)与理解。数(shu)(shu)据(ju)(ju)(ju)(ju)收集和(he)(he)数(shu)(shu)据(ju)(ju)(ju)(ju)库创建(jian)机制的(de)(de)早期开发(fa)已成为(wei)以(yi)(yi)后数(shu)(shu)据(ju)(ju)(ju)(ju)存储和(he)(he)检索、查询和(he)(he)事务(wu)处(chu)理有效机制开发(fa)的(de)(de)必(bi)备基础。随着提供(gong)查询和(he)(he)事务(wu)处(chu)理的(de)(de)大量数(shu)(shu)据(ju)(ju)(ju)(ju)库系统的(de)(de)广泛应(ying)用,数(shu)(shu)据(ju)(ju)(ju)(ju)分析(xi)和(he)(he)理解自然成为(wei)下一个目(mu)标。数(shu)(shu)据(ju)(ju)(ju)(ju)挖掘(jue)工具(ju)进行数(shu)(shu)据(ju)(ju)(ju)(ju)分析(xi),可以(yi)(yi)发(fa)现重(zhong)要的(de)(de)数(shu)(shu)据(ju)(ju)(ju)(ju)模式(shi),对商务(wu)决(jue)策(ce)、知(zhi)识库、科学和(he)(he)医(yi)学等研究做出贡献。
数据挖掘就(jiu)是(shi)从数据当中发(fa)现趋势或模式的(de)(de)过(guo)程,其目的(de)(de)就(jiu)是(shi)通过(guo)对大量数据的(de)(de)分析从而发(fa)现人(ren)们(men)先前(qian)不(bu)知道的(de)(de)但又非常有(you)用的(de)(de)新(xin)的(de)(de)信息。数据挖掘是(shi)数据库、机器学(xue)习、人(ren)工智能、数理统(tong)计、可(ke)视化(hua)和并行(xing)计算及(ji)其他学(xue)科相结合的(de)(de)产物。它不(bu)仅(jin)被(bei)许(xu)多研(yan)究人(ren)员看作是(shi)数据库系统(tong)和机器学(xue)习方面(mian)一(yi)个重(zhong)要(yao)(yao)的(de)(de)研(yan)究课题,而且(qie)被(bei)许(xu)多工商界人(ren)士看做是(shi)一(yi)个可(ke)以(yi)带来巨大回报的(de)(de)重(zhong)要(yao)(yao)领(ling)域。
从20世纪80年代中期的兴起到如今的蓬勃发展,数据挖掘已经成为科学界和企业开始关注的热点。事实上,世界500强企业中80%都涉足数据挖掘的前瞻性研究。它帮助企业进行CRM,减少不必要的投资,提高资金周转和回报,迅速获取所需的知识和信息,以悟空CRM为例,可以有效对系统数据库中的所有的数据进行全面统计分析,形成报表或者图表形式,让企业用户更加直观了解客户及其员工的相关统计分析,醒目的数据报告,多层次的交叉分析,可以更好的提高工作效率,改进服务质量。
数据(ju)挖掘与OLAP(联(lian)机(ji)分(fen)析处理)的区别
1.OLAP是对当前事务进行处理,一般采取多“维度一事实”的库表结构,可以对当前的事务数据进行直观的分析和呈现,用户需求中经常提到的多维报表就是这个意思,市场上应用较广的数据报表工具:BO、BRIO等就是OLAP工具。
2.数(shu)据挖掘应该说不(bu)是某个具体的(de)工具和产品,而(er)是一整套解决(jue)方(fang)案,如(ru)首先需要有(you)数(shu)据仓库的(de)支持,即(ji)有(you)海(hai)量的(de)数(shu)据仓库,一般对(dui)实(shi)时性没有(you)具体要求(qiu),主要是对(dui)历(li)史数(shu)据进行分析(xi),从中发现用以支撑决(jue)策的(de)规律性东西(知(zhi)识)。
3.OLAP可以理解为是“数据一信息”的升华,而数据挖掘是“数据一信息一知识”的升华,显然二者之间的区别还是很明显,OLAP处理后的一些结果甚至是数据挖掘的数据源之一。
4.数据挖掘需要用到更为复(fu)杂的算(suan)法(fa)和工具。一些启发式学习算(suan)法(fa),如神经网络、遗传算(suan)法(fa)、SVM等都会应用到数据挖掘中,而OLAP一般用到常规的统计学算法,如均值、一元回归、二元回归等。
5.二者的(de)实施和项目结果(guo)输出都(dou)不同,OLAP一般是当前事务型项目的辅助和补充(经常一个项目中需要用到报表工具就是OLAP),而数据挖掘一般是一个独立的,较为大型的IT项目,独立于当前的事务型应用。
悟空CRM产品更多介绍:fl518.com.cn