HDFS分布式文件系統(tǒng)
HDFS用于存儲Hadoop集群中的所有文件,主要被設計用來提高大數(shù)據文件的存取速率,將大文件按塊平分,通常每塊64MB,然后將數(shù)據塊存儲到不同機器上,在讀取數(shù)據的時候就可以同時從多個機器上讀取相關區(qū)塊的文件,提髙大文件讀取效率。在數(shù)據訪問方面與傳統(tǒng)文件系統(tǒng)有所不同,以流式訪問數(shù)據,不支持文件隨機寫入,只能在文件末尾進行追加。
由于HDFS通常被部署在廉價的普通PC機上,機器出現(xiàn)故障的概率就遠高于昂貴的高配置大型機。為了預防因機器故障導致文件丟失或者不完整的情況,HDFS將集群中所有機器都認為是可能出問題的,其將同一個文件塊多個副本分別存儲到不同機器上以作備份,一旦某臺機器出現(xiàn)故障,就可以從其他人機器上讀取副本,具有良好的容錯性。
MapReduce并行計巧框架
MapReduce是Hadoop下的分布式數(shù)據處理模型,主要用于大規(guī)模數(shù)據集的并行處理。其基本原理是:首先將大規(guī)模數(shù)據集切分成若干個小規(guī)模數(shù)據分片,每個數(shù)據分片作為一個map任務輸入參數(shù),然后并行執(zhí)行map任務。Map任務結束后,將結果通過hash油分區(qū)分配給reduce任務進行匯總處理。Hadoop將作業(yè)分成若干個map任務和reduce任務來執(zhí)行,對于不熟悉分布式編程的人員來說,只需填寫map和reduce處理操作,并不需要理會底層分布式并行計算機制,大大地降低了分布式計算編程的口檻。
ETHINK數(shù)據智能分析平臺提供本文 https://www.ethinkbi.com
轉載請注明來自夕逆IT,本文標題:《2024年五款免費算量軟件:誰是佼佼者-軟件技巧》

還沒有評論,來說兩句吧...