4.5 非結(jié)構(gòu)化數(shù)據(jù)模型
大多數(shù)的信息是非結(jié)構(gòu)化的,包括紙質(zhì)的文件、報(bào)告、視頻和音頻文件、照片、傳真件、信件等。在信息化銀行建設(shè)過程中,所處理的數(shù)據(jù)除了常見的結(jié)構(gòu)化數(shù)據(jù)外,還有大量的非結(jié)構(gòu)化數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù)包含復(fù)雜的內(nèi)容,并具有不同的結(jié)構(gòu)特點(diǎn),傳統(tǒng)關(guān)系數(shù)據(jù)庫無論從描述能力上還是從管理數(shù)據(jù)的規(guī)模上,都無法應(yīng)對(duì)非結(jié)構(gòu)化數(shù)據(jù)管理的要求。因此,需要專門針對(duì)非結(jié)構(gòu)化數(shù)據(jù)特點(diǎn),研究建立一種新的管理技術(shù)。
數(shù)據(jù)模型是數(shù)據(jù)管理的核心。數(shù)據(jù)模型定義了數(shù)據(jù)描述結(jié)構(gòu)、數(shù)據(jù)操作方法以及數(shù)據(jù)完整性約束條件。基于數(shù)據(jù)模型,可以建立可擴(kuò)展的數(shù)據(jù)存儲(chǔ)模型,使數(shù)據(jù)能夠以某種結(jié)構(gòu)和方式進(jìn)行存儲(chǔ)與讀取;可以建立面向上層應(yīng)用的靈活多樣的數(shù)據(jù)操作模型,支持用戶對(duì)數(shù)據(jù)的高效訪問。非結(jié)構(gòu)化數(shù)據(jù)管理與傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)管理的目標(biāo)是相同的,即支持?jǐn)?shù)據(jù)的永久保存、快速有效的數(shù)據(jù)讀取操作,從而有效地支持上層應(yīng)用和用戶的數(shù)據(jù)處理邏輯。因此,在非結(jié)構(gòu)化數(shù)據(jù)管理中,建立有效的數(shù)據(jù)模型,仍然是達(dá)到數(shù)據(jù)管理目標(biāo)的核心和關(guān)鍵。現(xiàn)有的非結(jié)構(gòu)化數(shù)據(jù)模型主要有關(guān)系模型、擴(kuò)展關(guān)系模型、面向?qū)ο竽P汀-R模型以及分層式數(shù)據(jù)模型等。這些模型存在擴(kuò)展性與復(fù)雜性方面的問題,而在面向大數(shù)據(jù)時(shí)這些問題更加突出,因此無法勝任大數(shù)據(jù)的管理。
非結(jié)構(gòu)化數(shù)據(jù)例如文本、圖形、圖像、音頻和視頻等,從內(nèi)容上沒有統(tǒng)一的結(jié)構(gòu),數(shù)據(jù)是以原生態(tài)形式保存的,因此計(jì)算機(jī)無法直接理解和處理。為了對(duì)不同類型的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,所采用的基本思路是對(duì)這些非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行描述,基于描述性信息實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化數(shù)據(jù)內(nèi)容的管理和操作。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的描述,目前有三類:基于關(guān)鍵字的語義描述;基于底層特征的描述;基于概念的語義描述。因此,一個(gè)非結(jié)構(gòu)化數(shù)據(jù)可以由基本屬性、語義特征、底層特征以及原始數(shù)據(jù)四個(gè)部分構(gòu)成,而且四個(gè)部分的數(shù)據(jù)之間存在各種聯(lián)系。
基于上述對(duì)非結(jié)構(gòu)化數(shù)據(jù)的分析,可以使用學(xué)術(shù)界提出的四面體模型。四面體模型由一個(gè)頂點(diǎn),四個(gè)刻面和刻面之間的交線組成,如圖4-12所示。