在當(dāng)今的大數(shù)據(jù)時(shí)代,不僅IT(互聯(lián)網(wǎng))行業(yè)的人們需要了解與大數(shù)據(jù)相關(guān)的知識(shí),傳統(tǒng)行業(yè)的從業(yè)人員和普通大學(xué)生還應(yīng)該了解大數(shù)據(jù)的知識(shí),這些知識(shí)是由工業(yè)驅(qū)動(dòng)的下,互聯(lián)網(wǎng)和新的基礎(chǔ)設(shè)施的計(jì)劃。未來(lái),大數(shù)據(jù)技術(shù)將得到全面應(yīng)用,大數(shù)據(jù)還將重塑整個(gè)產(chǎn)業(yè)結(jié)構(gòu)。那說(shuō)了這么多大數(shù)據(jù),到底什么是大數(shù)據(jù)呢?通俗的說(shuō),大數(shù)據(jù)即為海量數(shù)據(jù)。
什么是大數(shù)據(jù)?
了解大數(shù)據(jù)首先要從大數(shù)據(jù)的概念開(kāi)始,不同于人工智能概念,大數(shù)據(jù)概念還是相對(duì)比較明確的,而且大數(shù)據(jù)的技術(shù)體系也已經(jīng)趨于成熟了。解釋大數(shù)據(jù)概念,可以從數(shù)據(jù)自身的特點(diǎn)入手,然后進(jìn)一步從場(chǎng)景、應(yīng)用和行業(yè)來(lái)逐漸展開(kāi)。
大數(shù)據(jù)自身的特點(diǎn)往往集中在五個(gè)方面,分別是數(shù)據(jù)量、數(shù)據(jù)結(jié)構(gòu)多樣性、數(shù)據(jù)價(jià)值密度、數(shù)據(jù)增長(zhǎng)速度和可信度,對(duì)于這五個(gè)維度的理解和認(rèn)知,是了解大數(shù)據(jù)概念的關(guān)鍵。當(dāng)然,隨著大數(shù)據(jù)技術(shù)的發(fā)展和在行業(yè)領(lǐng)域的應(yīng)用,關(guān)于數(shù)據(jù)自身的維度也有了一定程度的擴(kuò)展,這些擴(kuò)展本身也是對(duì)大數(shù)據(jù)概念的一種豐富和完善。
數(shù)據(jù)量大是大數(shù)據(jù)的一個(gè)重要特征,但是數(shù)據(jù)量本身是一個(gè)匯集的概念,并不是只有很大的數(shù)據(jù)才稱(chēng)為大數(shù)據(jù),傳統(tǒng)信息系統(tǒng)所產(chǎn)生的“小數(shù)據(jù)”也是大數(shù)據(jù)的一個(gè)重要組成部分,這一點(diǎn)一定要有清晰的認(rèn)知。當(dāng)前從大數(shù)據(jù)的數(shù)據(jù)來(lái)源來(lái)看,主要集中在三個(gè)渠道,包括互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和傳統(tǒng)信息系統(tǒng),物聯(lián)網(wǎng)數(shù)據(jù)當(dāng)前占據(jù)的比例比較大,相信在5G時(shí)代,物聯(lián)網(wǎng)將依然是大數(shù)據(jù)的主要數(shù)據(jù)來(lái)源。
數(shù)據(jù)結(jié)構(gòu)多樣性是大數(shù)據(jù)的另一個(gè)重要特點(diǎn),不同于創(chuàng)新信息系統(tǒng)(ERP)當(dāng)中的數(shù)據(jù),大數(shù)據(jù)的數(shù)據(jù)類(lèi)型是非常復(fù)雜的,既有結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這對(duì)于傳統(tǒng)的數(shù)據(jù)處理技術(shù)提出了巨大的挑戰(zhàn),這也是推動(dòng)大數(shù)據(jù)技術(shù)產(chǎn)生的一個(gè)重要原因。在工業(yè)互聯(lián)網(wǎng)時(shí)代,大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)多樣性會(huì)進(jìn)一步得到體現(xiàn),這對(duì)于數(shù)據(jù)價(jià)值化過(guò)程也提出了新的挑戰(zhàn)。
數(shù)據(jù)價(jià)值密度往往是衡量數(shù)據(jù)價(jià)值的重要基礎(chǔ),相對(duì)于傳統(tǒng)的信息系統(tǒng)來(lái)說(shuō),大數(shù)據(jù)當(dāng)中的數(shù)據(jù)價(jià)值密度是比較低的,這就需要有更快速和便捷的方式,來(lái)完成數(shù)據(jù)的價(jià)值化提取過(guò)程,而這也正是當(dāng)前大數(shù)據(jù)平臺(tái)所關(guān)注的核心能力之一。實(shí)際上,早期的Hadoop、Spark平臺(tái)之所以能夠脫穎而出,一個(gè)重要的原因就是其數(shù)據(jù)處理(排序)速度比較快。
數(shù)據(jù)增長(zhǎng)速度快是大數(shù)據(jù)的另一個(gè)重要表現(xiàn),通常傳統(tǒng)信息系統(tǒng)的數(shù)據(jù)增量是可以預(yù)測(cè)的,或者說(shuō)增長(zhǎng)速度是可控的,但是在大數(shù)據(jù)時(shí)代,數(shù)據(jù)增長(zhǎng)速度已經(jīng)大大突破了傳統(tǒng)數(shù)據(jù)處理所能承載的極限。數(shù)據(jù)增長(zhǎng)是一個(gè)相對(duì)的概念,相對(duì)于消費(fèi)互聯(lián)網(wǎng)來(lái)說(shuō),產(chǎn)業(yè)互聯(lián)網(wǎng)所帶來(lái)的數(shù)據(jù)增量可能會(huì)更加客觀(guān),因此產(chǎn)業(yè)互聯(lián)網(wǎng)時(shí)代會(huì)進(jìn)一步打開(kāi)大數(shù)據(jù)的價(jià)值空間。
最后,大數(shù)據(jù)還有一個(gè)特點(diǎn)就是數(shù)據(jù)本身的真實(shí)性,大數(shù)據(jù)時(shí)代所帶來(lái)的一個(gè)重要副作用就是數(shù)據(jù)真假難辨,這也是當(dāng)前大數(shù)據(jù)技術(shù)所要重點(diǎn)解決的問(wèn)題之一。從當(dāng)前大型互聯(lián)網(wǎng)平臺(tái)所采用的方法來(lái)看,通常是技術(shù)和管理相結(jié)合的方式,比如通過(guò)為用戶(hù)認(rèn)證就能夠解決一部分?jǐn)?shù)據(jù)的真實(shí)性(專(zhuān)業(yè)性)問(wèn)題。
什么是大數(shù)據(jù)通過(guò)上述介紹,相信大家已經(jīng)清楚了吧,想了解更多關(guān)于大數(shù)據(jù)的信息,請(qǐng)繼續(xù)關(guān)注中培偉業(yè)。