在技術(shù)快速跟新?lián)Q代的互聯(lián)網(wǎng)行業(yè),已有 3年 歷史 “大數(shù)據(jù)” 聽(tīng)起來(lái)似乎已經(jīng)過(guò)氣了。雖然 Hadoop 在 2006年 已經(jīng)出來(lái),但 “大數(shù)據(jù)” 這個(gè)概念大概是在 2011 到 2014年 左右才真正火起來(lái)的。也就是在這段時(shí)間里,至少是在媒體或者專(zhuān)家眼里,“大數(shù)據(jù)” 成為了新的 “金子” 或者 “石油”。然而,至少在我跟業(yè)界人士交談中,大家越來(lái)越感覺(jué)到這項(xiàng)技術(shù)已經(jīng)在某種程度上陷入了停滯。
拋開(kāi)不可避免的炒作周期曲線(xiàn)態(tài)勢(shì)不管,我們的 “大數(shù)據(jù)版圖” 已經(jīng)進(jìn)入第 4 個(gè)年頭了,趁這個(gè)時(shí)候退一步來(lái)反思一下去年發(fā)生了什么,思考一下這個(gè)行業(yè)的未來(lái)會(huì)怎樣是很有意義的。
到了2016年,大數(shù)據(jù)到底還是否依然能站在互聯(lián)網(wǎng)的前端呢,中培偉業(yè)《大數(shù)據(jù)Hadoop與Spark架構(gòu)應(yīng)用實(shí)戰(zhàn)》專(zhuān)家蔣老師給出了自己的觀點(diǎn)。
蔣老師指出,大數(shù)據(jù)有趣的一點(diǎn)在于,它不再像當(dāng)初經(jīng)歷過(guò)那樣有可能成為炒作的題材了。經(jīng)過(guò)炒作周期后仍能引起廣泛興趣的產(chǎn)品和服務(wù)往往那些大家能夠接觸、可以感知,或者與大眾相關(guān)聯(lián)的:比如移動(dòng)應(yīng)用、社交網(wǎng)絡(luò)、可穿戴、虛擬現(xiàn)實(shí)等。
但大數(shù)據(jù)基本上就是管道設(shè)施的一種。當(dāng)然,大數(shù)據(jù)為許多消費(fèi)者或商業(yè)用戶(hù)體驗(yàn)提供了動(dòng)力,但它的核心是企業(yè)技術(shù):數(shù)據(jù)庫(kù)、分析等,這些東西都是在后端運(yùn)行的,沒(méi)幾個(gè)人能看得見(jiàn)。就像在那個(gè)世界工作的任何人都知道那樣,用一個(gè)晚上的時(shí)間就想適應(yīng)企業(yè)端的新技術(shù)是不可能的。
大數(shù)據(jù)現(xiàn)象在早期主要是受到了與一批骨干互聯(lián)網(wǎng)公司(尤其是 Google、Facebook、Twitter 等)的共生關(guān)系的推動(dòng),這些公司既是核心大數(shù)據(jù)技術(shù)的重度用戶(hù),同時(shí)也是這些技術(shù)的創(chuàng)造者。這些公司突然間面對(duì)著規(guī)模前所未有的龐大數(shù)據(jù)時(shí),由于本身缺乏傳統(tǒng)的(昂貴的)基礎(chǔ)設(shè)施,也沒(méi)有辦法招募到一些最好的工程師,所以只好自己動(dòng)手來(lái)開(kāi)發(fā)所需的技術(shù)。后來(lái)隨著開(kāi)源運(yùn)動(dòng)的迅速發(fā)展,一大批此類(lèi)新技術(shù)開(kāi)始共享到更廣的范圍。然后,一些互聯(lián)網(wǎng)大公司的工程師離職去創(chuàng)辦自己的大數(shù)據(jù)初創(chuàng)企業(yè)。其他的一些 “數(shù)字原生” 公司,包括嶄露頭角的獨(dú)角獸公司,也開(kāi)始面臨著互聯(lián)網(wǎng)大公司的類(lèi)似需求,由于它們自身也沒(méi)有傳統(tǒng)的基礎(chǔ)設(shè)施,所以自然就成為了那些大數(shù)據(jù)技術(shù)的早期采用者。而早期的成功又導(dǎo)致了更多的創(chuàng)業(yè)活動(dòng)發(fā)生,并獲得了更多的 VC 資助,從而帶動(dòng)了大數(shù)據(jù)的起勢(shì)。
快速發(fā)展了幾年之后,現(xiàn)在我們面臨的是更加廣闊、但也更加棘手的機(jī)遇:讓中等規(guī)模到跨國(guó)公司級(jí)別的更大一批企業(yè)采用大數(shù)據(jù)技術(shù)。這些公司跟 “數(shù)字原生” 公司不一樣的是,他們沒(méi)有從零開(kāi)始的有利條件。而且他們失去的會(huì)更多:這些公司絕大部分的現(xiàn)有技術(shù)基礎(chǔ)設(shè)施都是成功的。那些基礎(chǔ)設(shè)施當(dāng)然未必是功能完備的,組織內(nèi)部許多人也意識(shí)到對(duì)自己的遺留基礎(chǔ)設(shè)施進(jìn)行現(xiàn)代化應(yīng)該是早點(diǎn)好過(guò)晚點(diǎn),但他們不會(huì)一夜間就把自己的關(guān)鍵業(yè)務(wù)取代掉。任何革命都需要過(guò)程、預(yù)算、項(xiàng)目管理、試點(diǎn)、局部部署以及完備的安全審計(jì)等。大企業(yè)對(duì)由年輕的初創(chuàng)企業(yè)來(lái)處理自己基礎(chǔ)設(shè)施的關(guān)鍵部分的謹(jǐn)慎是可以理解的。還有,令創(chuàng)業(yè)者感到絕望的是,許多(還是大多數(shù)?)企業(yè)仍頑固地拒絕把數(shù)據(jù)遷移到云端(至少不愿遷移到公有云)。
還需要理解的另一個(gè)關(guān)鍵是:大數(shù)據(jù)的成功不在于實(shí)現(xiàn)技術(shù)的某一方面(像 Hadoop 什么的),而是需要把一連串的技術(shù)、人和流程糅合到一起。你得捕捉數(shù)據(jù)、存儲(chǔ)數(shù)據(jù)、清洗數(shù)據(jù)、查詢(xún)數(shù)據(jù)、分析數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行可視化。這些工作一部分可以由產(chǎn)品來(lái)完成,而有的則需要人來(lái)做。一切都需要無(wú)縫集成起來(lái)。最后,要想讓所有這一切發(fā)揮作用,整個(gè)公司從上到下都需要樹(shù)立以數(shù)據(jù)驅(qū)動(dòng)的文化,這樣大數(shù)據(jù)才能依然風(fēng)流。