性少妇vide0seⅹfree_国产剧情视频在线观看_日日碰夜夜爽_九九这里只有精品视频_性free毛茸茸偷窥videos_国产v亚洲

中培偉業(yè)IT資訊頻道
您現(xiàn)在的位置:首頁 > IT資訊 > 大數(shù)據(jù) > HPCC 和 Hadoop 的詳細(xì)比較

HPCC 和 Hadoop 的詳細(xì)比較

2015-11-06 10:27:10 | 來源:中培企業(yè)IT培訓(xùn)網(wǎng)

【中培偉業(yè)】通常使用基于Intel或AMD CPU的刀片服務(wù)器來構(gòu)建集群系統(tǒng),為了降低成本可以使用已經(jīng)停止銷售的過時(shí)硬件。節(jié)點(diǎn)有本地內(nèi)存和硬盤,通過高速交換機(jī)相連(通常為千兆交換機(jī)),如果集群節(jié)點(diǎn)很多,也可以使用分層交換。集群內(nèi)的節(jié)點(diǎn)是對(duì)等的(所有資源可以簡化為相同配置),但這一點(diǎn)并非必須。
  硬件環(huán)境
  通常使用基于Intel或AMD CPU的刀片服務(wù)器來構(gòu)建集群系統(tǒng),為了降低成本可以使用已經(jīng)停止銷售的過時(shí)硬件。節(jié)點(diǎn)有本地內(nèi)存和硬盤,通過高速交換機(jī)相連(通常為千兆交換機(jī)),如果集群節(jié)點(diǎn)很多,也可以使用分層交換。集群內(nèi)的節(jié)點(diǎn)是對(duì)等的(所有資源可以簡化為相同配置),但這一點(diǎn)并非必須。
  操作系統(tǒng)
  Linux或windows
  系統(tǒng)配置
  實(shí)現(xiàn)HPCC集群用兩種配置:數(shù)據(jù)加工(Thor)類似于Hadoop的MapReduce集群;數(shù)據(jù)分發(fā)引擎(Roxie)提供了獨(dú)立的高性能在線查詢 處理功能和數(shù)據(jù)倉庫功能。兩種配置都可以用做分布式文件系統(tǒng),不過它們?cè)噲D提高性能的實(shí)現(xiàn)方法不同。HPCC環(huán)境通常由兩種配置類型的多個(gè)集群組成。雖然 每個(gè)集群上的文件系統(tǒng)相互獨(dú)立,但是一個(gè)集群可以訪問同一環(huán)境下位于其他集群上的文件系統(tǒng)內(nèi)的文件。
  Hadoop系統(tǒng)軟件使用MapReduce處理范例實(shí)現(xiàn)了集群。這樣的集群也可以用做運(yùn)行HDFS的分布式文件系統(tǒng)。其他的功能都處Hadoop的MapReduce和Hbase,Hive等文件系統(tǒng)軟件之上。
  授權(quán)和維護(hù)費(fèi)用
  HPCC:社團(tuán)版本是免費(fèi)的。企業(yè)版授權(quán)費(fèi)用目前取決于集群大小和系統(tǒng)配置的類型。
  Hadoop:免費(fèi),不過有多個(gè)廠商提供不同的付費(fèi)的維護(hù)服務(wù)。
  核心軟件
  HPCC:如果使用了Thor配置,那么核心軟件包括安裝在集群每個(gè)節(jié)點(diǎn)上的操作系統(tǒng)和多種服務(wù),它們來實(shí)現(xiàn)任務(wù)的執(zhí)行和分布式文件系統(tǒng)的訪問。名字為 Dali的獨(dú)立服務(wù)器提供文件系統(tǒng)名字服務(wù)和管理HPCC環(huán)境下任務(wù)的工作單元。Thor集群可以配置為一個(gè)主節(jié)點(diǎn)和多個(gè)備用節(jié)點(diǎn)。Roxie集群是一個(gè) 對(duì)等連接的集群,它的每個(gè)節(jié)點(diǎn)可運(yùn)行服務(wù)器和執(zhí)行查詢以及密鑰和文件處理的任務(wù)代理。Roxie集群的文件系統(tǒng)使用分布式B+樹來存儲(chǔ)索引和數(shù)據(jù),并提供 對(duì)加密數(shù)據(jù)的訪問。要對(duì)Thor和Roxie集群進(jìn)行操作的話,附加的中間件組件是不可或缺的。
  Hadoop:核心軟件包括操作系統(tǒng)、Hadoop的MapReduce集群和HDFS軟件。每個(gè)備用節(jié)點(diǎn)包括任務(wù)跟蹤服務(wù)和數(shù)據(jù)節(jié)點(diǎn)服務(wù)。主節(jié)點(diǎn)包括任務(wù)追蹤服務(wù),任務(wù)追蹤服務(wù)可配置為獨(dú)立的硬件節(jié)點(diǎn)或者運(yùn)行在一個(gè)備用硬件節(jié)點(diǎn)。類似地,對(duì)HDFS來說,要提供名字服務(wù)的話,主名字節(jié)點(diǎn)服務(wù)也是必須的,并且可在一個(gè)備用的節(jié)點(diǎn)或者一個(gè)獨(dú)立的節(jié)點(diǎn)之上運(yùn)行這個(gè)服務(wù)。
  中間件
  HPCC:中間件包括在MySQL服務(wù)器上實(shí)現(xiàn)的ECL代碼倉庫、編譯ECL程序和查詢的ECL服務(wù)器、ECL代理即Thor集群上管理任務(wù)執(zhí)行的客戶端 程序,ESP服務(wù)器(企業(yè)服務(wù)平臺(tái)),它提供認(rèn)證、日志記錄、安全以及執(zhí)行任務(wù)和提供Web服務(wù)環(huán)境的其他服務(wù),Dali服務(wù)器,它可用作存儲(chǔ)任務(wù)工作單 元信息的系統(tǒng)數(shù)據(jù)和為分布式文件系統(tǒng)提供名字服務(wù)。中間件可以靈活地運(yùn)行在一個(gè)到幾個(gè)節(jié)點(diǎn)上。多個(gè)這樣的服務(wù)器可以提供冗余備份和提高性能。
  Hadoop:沒有中間件。客戶端軟件可以直接提交任務(wù)給集群主節(jié)點(diǎn)的任務(wù)追蹤器。作為服務(wù)器運(yùn)行的Hadoop工作流調(diào)度器(HWS)的管理需要多個(gè)MapReduce序列的任務(wù)的功能正在開發(fā)中。
  系統(tǒng)工具
  HPCC包括用于管理、維護(hù)和監(jiān)視HPCC配置和環(huán)境的客戶端和操作工具套件。這個(gè)套件包括ECL IDE、程序開發(fā)環(huán)境、屬性遷移工具、分布式文件應(yīng)用(DFU)、環(huán)境配置應(yīng)用和Roxie配置應(yīng)用。命令行版本也可用。ECLWatch是一個(gè)監(jiān)控 HPCC環(huán)境的基于Web的應(yīng)用程序,它包括隊(duì)列管理,分布式文件系統(tǒng)管理、任務(wù)監(jiān)視和系統(tǒng)性能監(jiān)視工具。其他工具是通過Web服務(wù)接口提供的。
  Hadoop:dfsadmin工具提供文件系統(tǒng)的狀態(tài)信息;fsck是一個(gè)檢查HDFS上文件的健康性的應(yīng)用;數(shù)據(jù)節(jié)點(diǎn)塊掃描器定時(shí)地驗(yàn)證數(shù)據(jù)節(jié)點(diǎn)上所 有的存儲(chǔ)塊;平衡器根據(jù)需要把超負(fù)荷的數(shù)據(jù)節(jié)點(diǎn)上的阻塞重新發(fā)布到低負(fù)荷的數(shù)據(jù)節(jié)點(diǎn)上。MapReduce的WEB用戶接口包括顯示正在運(yùn)行的和已經(jīng)完成 的任務(wù)信息的任務(wù)追蹤器頁面;對(duì)一個(gè)具體的任務(wù)再向下點(diǎn)擊的話就可以看到這個(gè)任務(wù)的詳細(xì)信息。還有顯示Map和Reduce任務(wù)信息的任務(wù)頁面。
  易部署
  HPCC:環(huán)境配置工具。源服務(wù)器有一個(gè)集中式倉庫,它分發(fā)操作系統(tǒng)級(jí)別的設(shè)置、服務(wù)和二進(jìn)制文件到配置中所有可網(wǎng)絡(luò)啟動(dòng)的節(jié)點(diǎn)上。
  Hadoop:需要第三方應(yīng)用向?qū)峁┑脑诰€工具協(xié)助。需要手動(dòng)部署RPM。
  分布式文件系統(tǒng)
  HPCC:Thor的分布式文件系統(tǒng)是面向記錄的,使用本地Linux文件系統(tǒng)存儲(chǔ)部分文件。文件是跨節(jié)點(diǎn)初始化裝載的(提取的),并且每個(gè)節(jié)點(diǎn)都有一個(gè)單獨(dú)的部分文件,對(duì)一個(gè)分布式文件來說,這個(gè)部分文件可為空。在由用戶指定的偶數(shù)個(gè)記錄/文檔范圍內(nèi)對(duì)文件進(jìn)行分割。主備結(jié)構(gòu)通過存儲(chǔ)在獨(dú)立服務(wù)器的名字服務(wù)和文件映射信息來分割。每個(gè)節(jié)點(diǎn)只需要一個(gè)本地文件來表示一個(gè)分布式文件。同一環(huán)境下多個(gè)集群之間也支持讀寫訪問權(quán)限設(shè)置。使用特定的適配器允許訪問 來自外部數(shù)據(jù)庫的比如MySQL的文件,允許事務(wù)數(shù)據(jù)與分布式文件數(shù)據(jù)合并且并入批處理的任務(wù)中。Roxie分布式文件系統(tǒng)使用了分布式B+樹索引文件, 這樣的文件包含了鍵值信息和存儲(chǔ)在每個(gè)節(jié)點(diǎn)的本地文件里的數(shù)據(jù)。
  Hadoop:面向塊的,大多數(shù)安裝使用大小為64MB或者128MB的塊。塊是以節(jié)點(diǎn)的本地Unix/Linux文件系統(tǒng)的獨(dú)立單元/本地文件存儲(chǔ)的。 每個(gè)塊的元數(shù)據(jù)信息存儲(chǔ)為一個(gè)獨(dú)立的文件。主備結(jié)構(gòu)使用了單獨(dú)的名字節(jié)點(diǎn)提供名字服務(wù)和塊映射,并且使用了多個(gè)數(shù)據(jù)節(jié)點(diǎn)。文件劃分為塊并且分布地存儲(chǔ)在集群的各個(gè)節(jié)點(diǎn)。跨節(jié)點(diǎn)存儲(chǔ)在一個(gè)節(jié)點(diǎn)上每個(gè)邏輯塊的多個(gè)本地文件(一個(gè)用來保存塊數(shù)據(jù)、一個(gè)用來保存元數(shù)據(jù))來表示一個(gè)分布式文件。
容錯(cuò)性
  HPCC:Thor和Roxie的分布式文件系統(tǒng)(可配置)在其他節(jié)點(diǎn)上保存了部分文件的副本,以防止磁盤或者節(jié)點(diǎn)失效。Thor系統(tǒng)在一個(gè)節(jié)點(diǎn)失效之后 提供了要么自動(dòng)要么手動(dòng)的切換和熱啟動(dòng),任務(wù)從最近一次檢查點(diǎn)重新啟動(dòng)或者繼續(xù)運(yùn)行。當(dāng)復(fù)制數(shù)據(jù)到一個(gè)新的節(jié)點(diǎn)的時(shí)候,副本的制作自動(dòng)進(jìn)行。Roxie系 統(tǒng)在減少節(jié)點(diǎn)數(shù)而引起節(jié)點(diǎn)失效時(shí)繼續(xù)運(yùn)行。
  Hadoop:HDFS(可配置)在其他節(jié)點(diǎn)上存儲(chǔ)(用戶指定的)多個(gè)副本,以防止由于自動(dòng)恢復(fù)出現(xiàn)的磁盤或節(jié)點(diǎn)失效。MapReduce架構(gòu)包括了試探性執(zhí)行,當(dāng)檢測到一個(gè)慢的或者失敗的Map任務(wù)時(shí),其他Map任務(wù)將從失效的節(jié)點(diǎn)處開始恢復(fù)。
執(zhí)行任務(wù)的環(huán)境
  HPCC:Thor使用了主備處理結(jié)構(gòu)。ECL任務(wù)定義的處理步驟可以指定本地操作(數(shù)據(jù)在每個(gè)節(jié)點(diǎn)上獨(dú)立處理)或者全局(數(shù)據(jù)跨所有節(jié)點(diǎn)處理)操作。為了對(duì)編譯的ECL數(shù)據(jù)流程序的執(zhí)行進(jìn)行優(yōu)化,一個(gè)過程的多個(gè)處理步驟可作為一個(gè)單獨(dú)任務(wù)的一部分自動(dòng)地執(zhí)行。如果每個(gè)節(jié)點(diǎn)的CPU和內(nèi)存資源可滿足要求的 話,那么為了減少時(shí)延,一個(gè)單獨(dú)的Thor集群可配置為并行地運(yùn)行多個(gè)任務(wù)。包括ECL代理、ECL服務(wù)器和Dali服務(wù)器的中間件提供了客戶端接口,并管理作為工作單元打包的任務(wù)的執(zhí)行。Roxie使用了多個(gè)服務(wù)器/代理的結(jié)構(gòu)處理ECL程序,每個(gè)查詢把服務(wù)器任務(wù)當(dāng)作管理者,多個(gè)代理任務(wù)在需要的時(shí)候 獲取和處理這個(gè)查詢的數(shù)據(jù)。
  Hadoop:對(duì)輸入的鍵值對(duì)數(shù)據(jù)使用MapReduce處理范例。是主備處理結(jié)構(gòu)。任務(wù)追蹤器運(yùn)行在主節(jié)點(diǎn)上,任務(wù)追蹤器運(yùn)行在每個(gè)備用節(jié)點(diǎn)上。給 Map任務(wù)指定輸入文件的輸入分支,通常一個(gè)塊一個(gè)任務(wù)。Reduce任務(wù)數(shù)由用戶指定。對(duì)指定的節(jié)點(diǎn)來說,Map處理是在本地執(zhí)行的。移動(dòng)和排序操作是隨著Map的階段來進(jìn)行的,它用來分發(fā)和排序鍵值對(duì)給鍵區(qū)所對(duì)應(yīng)的Reduce任務(wù),這樣具有同一鍵的鍵值對(duì)由同一個(gè)Reduce任務(wù)處理。對(duì)大多數(shù)過程 來說,多個(gè)MapReduce處理步驟通常是必須的,并且一定是單獨(dú)由用戶或者語言比如Pig來排序和串接的。
  編程語言
  HPCC:ECL是HPCC環(huán)境的主要編程語言。ECL編譯為優(yōu)化的C++,然后再編譯為在Thor和Roxie平臺(tái)上可執(zhí)行的DLL。ECL的包括封裝在函數(shù)里的內(nèi)聯(lián)的C++代碼。外部服務(wù)可以用任何語言書寫,并且編譯為ECL可調(diào)用的函數(shù)共享庫。管道接口允許執(zhí)行用任何語言寫的合并到任務(wù)里的外部程序。
  Hadoop的MapReduce任務(wù)通常用Java書寫。其他語言的支持是通過流或者管道接口來實(shí)現(xiàn)的。其他處理環(huán)境是在Hadoop的 MapReduce之上執(zhí)行的,比如HBase和Hive,它們擁有自身的語言接口。Pig拉丁語言和Pig執(zhí)行環(huán)境提供了高級(jí)別的數(shù)據(jù)流語言,然后把這 種語言映射到到多個(gè)Java書寫的MapReduce任務(wù)上。
  集成編程開發(fā)環(huán)境
  HPCC平臺(tái)提供了ECL集成開發(fā)環(huán)境,一個(gè)綜合的特別針對(duì)ECL語言的集成開發(fā)環(huán)境。ECL集成開發(fā)環(huán)境提供了對(duì)共享源代碼倉庫的訪問,還提供了開發(fā) ECL數(shù)據(jù)流程序的完整的開發(fā)和測試環(huán)境。對(duì)ECLWatch工具的訪問是內(nèi)置的,它允許開發(fā)人員查看任務(wù)的執(zhí)行狀況。對(duì)當(dāng)前和歷史任務(wù)的工作單元的訪問 也提供了,它允許開發(fā)人員在開發(fā)周期期間很容易地對(duì)一個(gè)任務(wù)和下一個(gè)任務(wù)的結(jié)果進(jìn)行比較。
  Hadoop MapReduce使用了Java編程語言,有幾個(gè)優(yōu)秀的Java編程開發(fā)環(huán)境,包括NetBeans和Eclipse,它們提供了訪問Hadoop集群 的插件。Pig環(huán)境沒有自己的集成開發(fā)環(huán)境,不過可以使用Eclipse和其他編輯環(huán)境進(jìn)行語法檢查。Eclipse的pigPen附加組件提供了對(duì)Hadoop集群的訪問,這樣可以在Hadoop集群上運(yùn)行Pig程序和其他的開發(fā)功能。
  數(shù)據(jù)庫功能
  HPCC 平臺(tái)包括在分布式文件系統(tǒng)上構(gòu)建多個(gè)鍵、多個(gè)域(也就是復(fù)合)索引的功能。這些索引可以用來提高性能,并且提供了Thor系統(tǒng)上批處理任務(wù)的關(guān)鍵字訪問,或者用來支持部署到Roxie系統(tǒng)上的查詢的開發(fā)。ECL語言直接支持?jǐn)?shù)據(jù)的關(guān)鍵字訪問。
  基本的Hadoop的MapReduce不提供任何根據(jù)關(guān)鍵字訪問索引數(shù)據(jù)庫的功能。Hadoop附加的名字為HBase的系統(tǒng)提供了面向列關(guān)鍵字訪問的 數(shù)據(jù)庫功能。定制腳本語言和Java接口也提供了。Pig環(huán)境不直接支持對(duì)HBase的訪問,它需要用戶定義的函數(shù)或者各自的MapReduce過程。
  在線查詢和數(shù)據(jù)倉庫功能
  HPCC平臺(tái)上的Roxie系統(tǒng)配置特別設(shè)計(jì)用來為結(jié)構(gòu)化查詢和數(shù)據(jù)分析應(yīng)用提供數(shù)據(jù)倉庫的功能。Roxie是一個(gè)高性能的平臺(tái),它能支持?jǐn)?shù)千用戶,并且提供取決于應(yīng)用的亞秒響應(yīng)時(shí)間。
  基本的Hadoop的MapReduce系統(tǒng)不提供任何數(shù)據(jù)倉庫功能。Hadoop的一個(gè)附加系統(tǒng)Hive提供數(shù)據(jù)倉庫功能,并且允許裝在HDFS到表 里,然后使用類SQL的語言訪問。Pig環(huán)境不直接支持對(duì)Hive的訪問,它需要用戶定義的函數(shù)或者各自的MapReduce過程。
  擴(kuò)展性
  HPCC:一個(gè)到幾千個(gè)節(jié)點(diǎn)。實(shí)際上,HPCC配置需要非常少的節(jié)點(diǎn)就可以提供Hadoop集群相同的處理性能。不過集群的大小可能取決于分布式文件系統(tǒng)的整體存儲(chǔ)需求。
  Hadoop:一個(gè)到數(shù)千個(gè)節(jié)點(diǎn)。
  性能
  已經(jīng)證明HPCC平臺(tái)在高性能的400個(gè)節(jié)點(diǎn)系統(tǒng)上102秒內(nèi)對(duì)1TB的數(shù)據(jù)完成排序。在最近一次對(duì)運(yùn)行在另外400個(gè)節(jié)點(diǎn)系統(tǒng)上的Hadoop進(jìn)行了實(shí) 力相當(dāng)?shù)幕鶞?zhǔn)測試,HPCC性能是6分27秒,而Hadoop的性能是25分鐘28秒,同樣的硬件配置的結(jié)果表明HPCC的基準(zhǔn)測試比Hadoop快3.95倍。
Hadoop:當(dāng)前唯一可用的標(biāo)準(zhǔn)性能基準(zhǔn)測試是由http://sorbenchmark.org所贊助的排序基準(zhǔn)測試。雅虎已經(jīng)證明在1460個(gè)節(jié)點(diǎn) 上排序1TB數(shù)據(jù)是62秒,3450個(gè)節(jié)點(diǎn)排序100TB的數(shù)據(jù)是173分鐘,3658個(gè)節(jié)點(diǎn)排序1PB數(shù)據(jù)是975分鐘。

標(biāo)簽: hadoop
主站蜘蛛池模板: 在线观看波多野结衣电影 | 26uuu另类亚洲欧美日本老年 | 91亚洲精品久久久蜜桃网站 | 欧美一级免费观看 | 亚洲 一区| 日韩中文字幕在线看 | 狠狠干in | 久久激情电影 | 日本老头老太XING交 | 色网站综合 | 中国做受xxxxxaaaa | 伊人久久大香线蕉无码不卡 | www.中文字幕av | 一区=区三区乱码 | 写真在线 | 欧美日韩精品一区二区三区不卡 | 亚洲性后网 | 在线综合国产 | 第一区高清国语在线观看 | www.999热 | 97超视频在线观看 | 一本色道久久综合狠狠躁 | 亚洲一级一级一级 | 啊灬嗯灬啊灬用力点灬快 | 黑人欧美一区二区三区4p | 国产精品免费看视频 | 大色综合视频网站在线播放 | 国产成人tv| 久久不射电影网 | 337p亚洲大胆色噜噜 | 亚洲欧美黑人深喉猛交群 | 亚洲三级影视 | 六月色婷婷 | 国产日韩欧美一区二区东京热 | 国产一区二区成人在线 | 乱淫大杂烩| 日韩a成人 | 三级电影在线播放 | 亚洲欧美伦理 | 国产明星裸体无码XXXX视频 | 中文字幕免费视频精品一 |