1.商務(wù)智能關(guān)鍵技術(shù)
商務(wù)智能涉及的信息技術(shù)主要包括:ETL、數(shù)據(jù)倉庫、商務(wù)智能應(yīng)用技術(shù)等。
ETL是指采用數(shù)據(jù)抽取(Extraction)、轉(zhuǎn)換(Transformation)和加載(Loading)等技術(shù),從業(yè)務(wù)系統(tǒng)或外部系統(tǒng)抽取數(shù)據(jù),并以數(shù)據(jù)倉庫需要的格式和形態(tài),在規(guī)定的時(shí)間裝入到數(shù)據(jù)倉庫中去。ETL工具的關(guān)鍵技術(shù)在于能夠快速從源系統(tǒng)抽取增量數(shù)據(jù),提供并行的多任務(wù)數(shù)據(jù)抽取進(jìn)程,通過計(jì)劃作業(yè),提供豐富的數(shù)據(jù)轉(zhuǎn)換處理功能,其中尤為關(guān)鍵的在于如何捕獲業(yè)務(wù)系統(tǒng)的增量數(shù)據(jù)。大多數(shù)的ETL工具主要是依靠捕獲數(shù)據(jù)庫表記錄變化來獲得增量。少量的ETL工具則是基于應(yīng)用級來捕獲增量,一般這種工具都是配合專有應(yīng)用使用,比如,SAP公司的ERP可以產(chǎn)生應(yīng)用級的增量數(shù)據(jù)變動,但是其增量僅提供SAP BW產(chǎn)品數(shù)據(jù)抽取使用。通用的ETL工具包括Oracle公司的Oracle Data Integrator,IBM公司的DataStage,SAP Business Objects公司的Data Integrator,以及Informatica公司的數(shù)據(jù)集成產(chǎn)品。
數(shù)據(jù)倉庫( Data Warehouse)是面向主題的、集成的、穩(wěn)定的、不同時(shí)間的數(shù)據(jù)集合,為分析和決策提供一個(gè)完整的應(yīng)用視圖,為數(shù)據(jù)挖掘、數(shù)據(jù)分析提供統(tǒng)一的應(yīng)用界面和訪問接口,是商務(wù)智能總體技術(shù)架構(gòu)的核心。數(shù)據(jù)倉庫中的數(shù)據(jù)存儲方式,存在兩種主要的不同途徑。Ralph. Kimball建議采用維度模式,即數(shù)據(jù)倉庫中的數(shù)據(jù)需要按照維度構(gòu)造模型,或者是常說的雪花模式構(gòu)造模型。而William H.Inmon則強(qiáng)調(diào)數(shù)據(jù)倉庫中的數(shù)據(jù)需要采用實(shí)體一關(guān)系模型(E-R模型)或者俗稱的第三范式模型。在數(shù)據(jù)倉庫的建設(shè)上,Kimball建議采用自底向上的方式,即先為特定業(yè)務(wù)部門提供報(bào)表及分析的數(shù)據(jù)集市,然后通過總線將不同的數(shù)據(jù)集市集成在一起從而構(gòu)成一個(gè)整體的數(shù)據(jù)倉庫。Inmon則建議采用自頂向下的模式,要從企業(yè)的整體上來構(gòu)建數(shù)據(jù)倉庫,數(shù)據(jù)倉庫中的數(shù)據(jù)必須是“原子”數(shù)據(jù),保持最細(xì)的數(shù)據(jù)粒度,數(shù)據(jù)倉庫是企業(yè)信息資源庫的核心,滿足部門報(bào)表和分析的數(shù)據(jù)集市必須基于數(shù)據(jù)倉庫基礎(chǔ)之上來建立。Inmon方式建設(shè)的數(shù)據(jù)倉庫從企業(yè)整體架構(gòu)而言更為堅(jiān)固,但是采用這種方式的成本很大,建設(shè)周期很長,業(yè)務(wù)部門在一定時(shí)間內(nèi)無法受益。長久以來Kimball的方式占據(jù)了上風(fēng),很多企業(yè)面向部門需求建設(shè)了大量的部門數(shù)據(jù)集市,但是這種建設(shè)方式的弊端也是顯而易見的,主要是數(shù)據(jù)不一致,數(shù)據(jù)冗余和面臨業(yè)務(wù)變革調(diào)整困難,近些年全球大型企業(yè)開始對建設(shè)的數(shù)據(jù)集市進(jìn)行整合,重新回到Inmon的集中數(shù)據(jù)倉庫模式。