数据(ju)(ju)仓(cang)库(ku)(ku)是决(jue)策支持系(xi)统(tong)(Decision Supp System,DSS)和联(lian)机分析应用数据(ju)(ju)源的(de)结构(gou)化数据(ju)(ju)环境(jing)。数据(ju)(ju)仓(cang)库(ku)(ku)研(yan)究和解决(jue)从数据(ju)(ju)库(ku)(ku)中获取(qu)信息的(de)问题。数据(ju)(ju)仓(cang)库(ku)(ku)的(de)特征在于(yu)面(mian)向主(zhu)题、集成(cheng)性(xing)、稳定性(xing)和时变(bian)性(xing)。
数据仓库的主要(yao)特点
(1) 数据(ju)(ju)仓库是面向(xiang)(xiang)主题(ti)的(de);操作(zuo)型数据(ju)(ju)库的(de)数据(ju)(ju)组织(zhi)面向(xiang)(xiang)事(shi)务处理任务,而数据(ju)(ju)仓库中的(de)数据(ju)(ju)是按照一定的(de)主题(ti)域进行(xing)组织(zhi)。主题(ti)是指(zhi)用户使用数据(ju)(ju)仓库进行(xing)决(jue)策时所关(guan)(guan)心的(de)重(zhong)点方面,一个(ge)主题(ti)通常与多个(ge)操作(zuo)型信息系统相(xiang)关(guan)(guan)。
(2) 数(shu)据(ju)仓(cang)库(ku)是集成的(de)(de),数(shu)据(ju)仓(cang)库(ku)的(de)(de)数(shu)据(ju)有来自(zi)于分散的(de)(de)操作(zuo)型数(shu)据(ju),将(jiang)所需(xu)数(shu)据(ju)从原(yuan)来的(de)(de)数(shu)据(ju)中抽取出数(shu)据(ju)仓(cang)库(ku)的(de)(de)核心工具来,进(jin)行加工与集成,统一(yi)与综合之后(hou)才(cai)能进(jin)入数(shu)据(ju)仓(cang)库(ku)。
(3) 数(shu)据(ju)仓库(ku)(ku)是(shi)(shi)不(bu)可更新(xin)的,数(shu)据(ju)仓库(ku)(ku)主(zhu)要是(shi)(shi)为决策(ce)分析提供数(shu)据(ju),所涉及(ji)的操作主(zhu)要是(shi)(shi)数(shu)据(ju)的查询。
(4) 数据(ju)仓库(ku)(ku)是随时间而变(bian)(bian)化的,传统(tong)的关系数据(ju)库(ku)(ku)系统(tong)比较(jiao)适合(he)处理格式(shi)化的数据(ju)能够较(jiao)好地满足商业商务(wu)处理的需求。稳(wen)定的数据(ju)以只读格式(shi)保存,且不随时间改变(bian)(bian)。
(5) 汇总(zong)的(de)。操作性数据(ju)映(ying)射成决策可用的(de)格式。
(6) 大容量。时间(jian)序(xu)列数据集合通常都非常大。
(7) 非规范(fan)化的。数(shu)据可以是(shi)而且经(jing)常(chang)是(shi)冗余的。
(8) 元数(shu)据(ju)。将(jiang)描述(shu)数(shu)据(ju)的数(shu)据(ju)保存起来。
(9) 数据源(yuan)。数据来自内(nei)部(bu)(bu)的(de)和外部(bu)(bu)的(de)非集(ji)成(cheng)操作系(xi)统。
数据(ju)仓(cang)库(ku)(ku)(ku),是(shi)在数据(ju)库(ku)(ku)(ku)已经大(da)量存在的(de)(de)(de)(de)情况下,为了(le)进一步挖(wa)掘(jue)数据(ju)资源(yuan)、为了(le)决策需要(yao)而产(chan)生(sheng)的(de)(de)(de)(de),它并不(bu)是(shi)所(suo)谓的(de)(de)(de)(de)“大(da)型数据(ju)库(ku)(ku)(ku)”。数据(ju)仓(cang)库(ku)(ku)(ku)的(de)(de)(de)(de)方案建设的(de)(de)(de)(de)目的(de)(de)(de)(de),是(shi)作为前端查(cha)询和分析(xi)的(de)(de)(de)(de)基础(chu),由于有较大(da)的(de)(de)(de)(de)冗余,所(suo)以需要(yao)的(de)(de)(de)(de)存储也较大(da)。为了(le)更(geng)好(hao)地(di)为前端应用服务(wu),数据(ju)仓(cang)库(ku)(ku)(ku)往(wang)往(wang)有如下几点特(te)征(zheng)。
(1) 效率足够(gou)高。数(shu)(shu)(shu)(shu)据(ju)(ju)(ju)仓库的(de)(de)(de)分(fen)析(xi)数(shu)(shu)(shu)(shu)据(ju)(ju)(ju)一般分(fen)为(wei)日、周、月、季、年等,可以看出,日为(wei)周期(qi)的(de)(de)(de)数(shu)(shu)(shu)(shu)据(ju)(ju)(ju)要(yao)求的(de)(de)(de)效率最高,要(yao)求24小时(shi)甚至12小时(shi)内(nei),客户能(neng)看到昨天的(de)(de)(de)数(shu)(shu)(shu)(shu)据(ju)(ju)(ju)分(fen)析(xi)。由(you)于有的(de)(de)(de)企(qi)业每日的(de)(de)(de)数(shu)(shu)(shu)(shu)据(ju)(ju)(ju)量很大,设计不(bu)好的(de)(de)(de)数(shu)(shu)(shu)(shu)据(ju)(ju)(ju)仓库经常会(hui)出问题,延迟1至3日才(cai)能(neng)给数(shu)(shu)(shu)(shu)据(ju)(ju)(ju)显然是不(bu)行的(de)(de)(de)。
悟空(kong)CRM商业智能以(yi)新增商机分(fen)析(xi)为例,可以(yi)查看(kan)本(ben)年、去年、本(ben)季(ji)度、本(ben)月等,还(hai)可以(yi)进行自定义(yi)日(ri)期(qi)选择,显现悟空(kong)CRM 强大(da)的分(fen)析(xi)数(shu)据能力
悟空CRM商业智能以(yi)(yi)合(he)同(tong)(tong)数(shu)(shu)量分(fen)析(xi)(xi)为例,可以(yi)(yi)查看不同(tong)(tong)年(nian)份的(de)(de)数(shu)(shu)据分(fen)析(xi)(xi),同(tong)(tong)时以(yi)(yi)线型(xing)图和列(lie)表图同(tong)(tong)步显示(shi),线型(xing)图还包(bao)括环比(bi)和同(tong)(tong)比(bi)数(shu)(shu)据分(fen)析(xi)(xi)和对比(bi)等,以(yi)(yi)此显现悟空CRM 强大(da)的(de)(de)分(fen)析(xi)(xi)数(shu)(shu)据能力
(2) 数据(ju)(ju)(ju)质(zhi)量(liang)。数据(ju)(ju)(ju)仓库所提(ti)供(gong)的(de)各种(zhong)信息,肯定要(yao)准(zhun)确(que)的(de)数据(ju)(ju)(ju),但由于数据(ju)(ju)(ju)仓库流程通常分(fen)(fen)为多个步骤,包(bao)括数据(ju)(ju)(ju)清(qing)洗、装载、查询、展现(xian)等,复(fu)杂的(de)架构会有更(geng)多层次,那么由于数据(ju)(ju)(ju)源有脏(zang)数据(ju)(ju)(ju)或者代码(ma)不(bu)严谨(jin),都(dou)可以(yi)导(dao)致(zhi)数据(ju)(ju)(ju)失真,客户看到错误的(de)信息就可能(neng)导(dao)致(zhi)分(fen)(fen)析(xi)出错误的(de)决策(ce),造成损失,而(er)不(bu)是效(xiao)益。
(3) 扩(kuo)展(zhan)性(xing)。之(zhi)所(suo)以(yi)有的大型数(shu)据(ju)仓库(ku)系统架构设计复杂(za),是因为考虑(lv)到了未(wei)来3至(zhi)5年的扩(kuo)展(zhan)性(xing),这样(yang)的话,未(wei)来不(bu)(bu)用太快花费资金去重(zhong)建(jian)数(shu)据(ju)仓库(ku)系统,就(jiu)能稳(wen)定运行。这主要体现在(zai)数(shu)据(ju)建(jian)模(mo)的合理性(xing),数(shu)据(ju)仓库(ku)方案中(zhong)多出一些中(zhong)间层,使海量数(shu)据(ju)流有足够的缓冲,不(bu)(bu)至(zhi)于数(shu)据(ju)量大很多,就(jiu)运行不(bu)(bu)起(qi)来了。
从上面的(de)介绍中可以看出,数(shu)据仓库技术(shu)可以将企(qi)业(ye)多(duo)年积累的(de)数(shu)据唤醒(xing),不仅(jin)为(wei)(wei)企(qi)业(ye)管理好这些(xie)海量数(shu)据,而(er)且(qie)挖掘数(shu)据潜在(zai)的(de)价(jia)值,从而(er)成为(wei)(wei)通信企(qi)业(ye)运营维护系统的(de)亮点之一。
广义地说(shuo),基(ji)于数据仓(cang)库(ku)的决策支持(chi)系统(tong)由3个部件组成:数据仓(cang)库(ku)技(ji)(ji)术(shu)(shu)、联机分析处理(li)技(ji)(ji)术(shu)(shu)和数据挖掘技(ji)(ji)术(shu)(shu),其中数据仓(cang)库(ku)技(ji)(ji)术(shu)(shu)是系统(tong)的核心。
1. 构造(zao)数据仓库(ku)
数(shu)据(ju)仓(cang)库具(ju)有改变业务的(de)(de)威力。它(ta)能帮助公司深入了解客户行(xing)为(wei),预测销售趋(qu)势,确定某(mou)一组客户或产品(pin)的(de)(de)收益(yi)率。尽管如(ru)此,数(shu)据(ju)仓(cang)库的(de)(de)实现却是一个长(zhang)期的(de)(de)、充满风险的(de)(de)过程。最近,由DM Review发布的(de)(de)一项网络调查显(xian)示,51%受访者认为(wei)创建数(shu)据(ju)仓(cang)库的(de)(de)头号障碍是缺乏准确的(de)(de)数(shu)据(ju)。而其中最重(zhong)要的(de)(de)一点是无法实时更新(xin)所有的(de)(de)数(shu)据(ju)。
有6项指导原(yuan)则(ze)可(ke)帮助企业快速实现(xian)数据仓库计划并评估(gu)其(qi)过程(cheng)。
(1) 简(jian)化需求(qiu)收(shou)集(ji)和(he)设计。公(gong)司通常会难以确定,哪(na)些数据重(zhong)要,哪(na)些使得他们无(wu)法利用(yong)有价值的非结构化信息(xi)来驱动关(guan)键业务(wu)流(liu)程(cheng)。组(zu)织应(ying)该(gai)检查一下IT经理是否深(shen)入理解业务(wu)计划及支持计划所(suo)(suo)需的信息(xi)。例如,源数据在(zai)哪(na)里?需要怎(zen)样的转(zhuan)换能让其为关(guan)键应(ying)用(yong)程(cheng)序所(suo)(suo)用(yong)?
(2) 支持业务和IT用(yong)户协作。不完整(zheng)、过时(shi)或不准确的数据(ju)会导致(zhi)可信信息的缺(que)乏。要(yao)注意公司是否有一个业务术(shu)语表供(gong)用(yong)户查看、用(yong)于协作并根(gen)据(ju)他(ta)们(men)集体业务视(shi)角进行(xing)调整(zheng)?
(3) 避免(mian)代价高昂的(de)低级错误和(he)返(fan)工(gong)。明确公司(si)是否(fou)拥有(you)一个包含界定完善(shan)的(de)数据模型(xing)的(de)实施策略,为目前和(he)将(jiang)来的(de)应用程序提供信息?
(4) 识别匹配(pei)信息,创建单一视图。同一事(shi)实(shi)的多个版本(ben)会导致(zhi)在管理用户、产品和合作伙伴关系方面出现问题——增加违反法规遵从性的风险(xian)。
(5) 使用(yong)最快的、最具伸缩性的方法进行(xing)转换(huan)和发布。明确公(gong)司(si)是否(fou)有(you)能够(gou)利用(yong)并处理(li)并重用(yong)之前(qian)转换(huan)成果(guo)的自动化过程(cheng)?公(gong)司(si)系统能否(fou)及时按需将数据发布给(ji)用(yong)户和应用(yong)程(cheng)序?
(6) 通过信(xin)息(xi)(xi)服(fu)务扩展信(xin)息(xi)(xi)可访(fang)问性。明确企业(ye)是否能真正(zheng)将信(xin)息(xi)(xi)用(yong)作(zuo)共有(you)财产?IT专(zhuan)家能否保存好这些财产并让被授权者使用(yong)?信(xin)息(xi)(xi)能否在(zai)合(he)适(shi)(shi)的时(shi)间发布到合(he)适(shi)(shi)的地方和合(he)适(shi)(shi)的场景?
2. 实现方(fang)式
数据仓库(ku)是一个过程而不(bu)是一个项目。
数据(ju)(ju)(ju)仓库(ku)系统(tong)是一个信息提(ti)供平(ping)台,它(ta)从业(ye)务处理系统(tong)获得(de)数据(ju)(ju)(ju),主要以星形(xing)模(mo)型和雪花模(mo)型进行数据(ju)(ju)(ju)组织,并(bing)为用户提(ti)供各种(zhong)手(shou)段(duan)从数据(ju)(ju)(ju)中获取信息和知识(shi)。
从功能(neng)结(jie)构(gou)划分,数据(ju)仓(cang)库(ku)系统至少应该(gai)包含数据(ju)获(huo)取(Data Acquisition)、数据(ju)存储(chu)(Data Storage)、数据(ju)访问(Data Access)3个关键部分。
企(qi)业(ye)数(shu)(shu)据(ju)仓(cang)库(ku)的(de)(de)(de)建设(she),是以现(xian)有企(qi)业(ye)业(ye)务系统(tong)和大量业(ye)务数(shu)(shu)据(ju)的(de)(de)(de)积累为(wei)基础的(de)(de)(de)。数(shu)(shu)据(ju)仓(cang)库(ku)不是静态的(de)(de)(de)概念,只(zhi)有把(ba)(ba)信(xin)息(xi)及(ji)时交给(ji)需要这(zhei)些信(xin)息(xi)的(de)(de)(de)使用者(zhe),供他们做出改善其业(ye)务经营的(de)(de)(de)决策,信(xin)息(xi)才能发挥作用,信(xin)息(xi)才有意义。而把(ba)(ba)信(xin)息(xi)加以整(zheng)理(li)归纳和重(zhong)组,并(bing)及(ji)时提供给(ji)相应的(de)(de)(de)管理(li)决策人(ren)员(yuan),是数(shu)(shu)据(ju)仓(cang)库(ku)的(de)(de)(de)根本任(ren)务。因此(ci),从(cong)产业(ye)界的(de)(de)(de)角度(du)看,数(shu)(shu)据(ju)仓(cang)库(ku)建设(she)是一个(ge)工程,是一个(ge)过程。
3. 建立数据仓库的作用
企(qi)业建立数据(ju)(ju)仓(cang)库是为(wei)了填补现有数据(ju)(ju)存储形式已经不能满足信息分(fen)析(xi)的(de)需要。数据(ju)(ju)仓(cang)库理(li)论中的(de)一(yi)个(ge)核心理(li)念就是事(shi)务型数据(ju)(ju)和决策支持型数据(ju)(ju)的(de)处理(li)性能不同。
企(qi)业在(zai)它(ta)们的事务(wu)操作(zuo)过程中收集数据(ju)。在(zai)企(qi)业运作(zuo)过程中:随着订(ding)货、销售记录的进(jin)行,这些事务(wu)型数据(ju)也连续的产生(sheng)。为(wei)了引(yin)入数据(ju),企(qi)业必须优化事务(wu)型数据(ju)库。
处理决(jue)策(ce)支持型数(shu)据时(shi),一些问题经常会(hui)(hui)被提出:哪类(lei)(lei)客(ke)户(hu)会(hui)(hui)购(gou)买哪类(lei)(lei)产品?促销(xiao)后(hou)销(xiao)售额会(hui)(hui)变化(hua)(hua)多(duo)少?价格变化(hua)(hua)后(hou)或者商店(dian)地址(zhi)变化(hua)(hua)后(hou)销(xiao)售额又会(hui)(hui)变化(hua)(hua)多(duo)少?在某一段时(shi)间内,相对(dui)其他(ta)产品来(lai)说(shuo)哪类(lei)(lei)产品特(te)别容易卖(mai)呢?哪些客(ke)户(hu)增加(jia)了他(ta)们的(de)购(gou)买额?哪些客(ke)户(hu)又削减了他(ta)们的(de)购(gou)买额?
事务型(xing)(xing)(xing)数(shu)据(ju)库可以为这些问(wen)(wen)题做出解(jie)答(da),但是它(ta)所给出的(de)(de)(de)答(da)案(an)往往并不(bu)能让人十分满(man)意。在(zai)运用有限的(de)(de)(de)计(ji)算机(ji)资源时常常存在(zai)着竞争。在(zai)增加新(xin)(xin)信息的(de)(de)(de)时候我们(men)需(xu)要事务型(xing)(xing)(xing)数(shu)据(ju)库是空闲的(de)(de)(de)。而在(zai)解(jie)答(da)一系列具体的(de)(de)(de)有关(guan)信息分析的(de)(de)(de)问(wen)(wen)题的(de)(de)(de)时候,系统处理新(xin)(xin)数(shu)据(ju)的(de)(de)(de)有效性又会被大大降低。另(ling)一个问(wen)(wen)题就在(zai)于(yu)事务型(xing)(xing)(xing)数(shu)据(ju)总是在(zai)动(dong)态的(de)(de)(de)变化之中(zhong)的(de)(de)(de)。决策支持型(xing)(xing)(xing)处理需(xu)要相对稳定的(de)(de)(de)数(shu)据(ju),从(cong)而问(wen)(wen)题都能得到一致连续的(de)(de)(de)解(jie)答(da)。
数据(ju)(ju)仓(cang)库(ku)的(de)解决方法包(bao)括:将决策(ce)支持型(xing)数据(ju)(ju)处理从(cong)(cong)事务型(xing)数据(ju)(ju)处理中(zhong)分(fen)离出来。数据(ju)(ju)按照(zhao)一定的(de)周期(通常在每晚(wan)或(huo)者每周末),从(cong)(cong)事务型(xing)数据(ju)(ju)库(ku)中(zhong)导入决策(ce)支持型(xing)数据(ju)(ju)库(ku)——即(ji)“数据(ju)(ju)仓(cang)库(ku)”。数据(ju)(ju)仓(cang)库(ku)是按回(hui)答企业(ye)某方面的(de)问题(ti)来分(fen)“主题(ti)”组织数据(ju)(ju)的(de),这是最有效的(de)数据(ju)(ju)组织方式。
悟空CRM产品更多介绍:fl518.com.cn