-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
hdfs適用于什么樣的應(yīng)用場景(hdfs主要應(yīng)用在哪些場合)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于hdfs適用于什么樣的應(yīng)用場景的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、Hadoop的組件MapReduce和HDFS分別是做什么的?
hdfs是:hadoop分布式文件系統(tǒng),主要用于存儲和管理數(shù)據(jù),而mapreduce是計(jì)算處理框架,主要用于分析處理統(tǒng)計(jì)你存在hdfs上的數(shù)據(jù)集用的
二、hadoop主要應(yīng)用領(lǐng)域包括以下哪些
Hadoop本身是一個生態(tài)圈. 整個生態(tài)圈里包含了底層的分布式存儲HDFS, 計(jì)算框架Mapreduce, 集群調(diào)度管理工具Zookeeper,集群資源管理工具YARN, 分布式數(shù)據(jù)庫HBASE等等. 我拿淘寶的店鋪淘生意舉一個例子吧, 可能不是那么準(zhǔn)確:
比如一個店鋪一天有10萬的訪客量, 你想分析的諸如這些訪客來自哪里,性別,年齡,訪問過什么商品,買過什么商品等等都會在訪問網(wǎng)站的時候留下相關(guān)的痕跡文件(簡稱日志),比如這些文件一天就有1TB,那么你怎么存大文件?一個客戶可能對應(yīng)的特性就有上萬條,你怎么在數(shù)據(jù)庫里存大表,又怎么分析用戶特性?這些都依賴于Hadoop的框架.
現(xiàn)在假設(shè)你有一個10臺機(jī)器的集群:
HDFS:可以將你每天生成的1TB文件拆分存儲在這個集群內(nèi). Zookeeper可以監(jiān)控你的文件系統(tǒng)以及其他主從框架的服務(wù)是否正常在線. YARN則可在集群內(nèi)協(xié)調(diào)你的CPU/內(nèi)存資源,當(dāng)有任務(wù)的時候可以合理分配資源進(jìn)行計(jì)算,Mapreduce則是執(zhí)行分析計(jì)算的基本框架,HBASE則可以將你分析后的數(shù)據(jù)保存在整個分布式集群內(nèi). 以供其它應(yīng)用來進(jìn)行進(jìn)一步的分析展示. 其它的Spark/Storm/HIVE/Impala/cassandra 等等在這就不說了.
總之,涉及超大數(shù)據(jù)進(jìn)行存儲分析等領(lǐng)域,都是以Hadoop為基本框架的,至少底層都是HDFS 純手打,忘采納.
三、hadoop是做什么的
hadoop是做分布式系統(tǒng)基礎(chǔ)架構(gòu)。
Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),一個能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架; Hadoop以一種可靠、高效、可伸縮的方式進(jìn)行數(shù)據(jù)處理;用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。
用戶可以輕松地在Hadoop上開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。
Hadoop實(shí)現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。
Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,而MapReduce則為海量的數(shù)據(jù)提供了計(jì)算。
Hadoop主要有以下優(yōu)點(diǎn):
高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。
高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。
高效性。Hadoop能夠在節(jié)點(diǎn)之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點(diǎn)的動態(tài)平衡,因此處理速度非???。高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。
低成本。與一體機(jī)、商用數(shù)據(jù)倉庫以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比,hadoop是開源的,項(xiàng)目的軟件成本因此會大大降低。
Hadoop帶有用Java語言編寫的框架,因此運(yùn)行在 Linux 生產(chǎn)平臺上是非常理想的。Hadoop 上的應(yīng)用程序也可以使用其他語言編寫,比如 C++。
四、請簡要描述一下hadoop,spark,mpi三種計(jì)算框架的特點(diǎn)以及分別適用于什么樣的場景
Spark已經(jīng)取代Hadoop成為最活躍的開源大數(shù)據(jù)項(xiàng)目,但是,在選擇大數(shù)據(jù)框架時,企業(yè)不能因此就厚此薄彼
近日,著名大數(shù)據(jù)專家Bernard Marr在一篇文章中分析了Spark和 Hadoop 的異同
Hadoop和Spark均是大數(shù)據(jù)框架,都提供了一些執(zhí)行常見大數(shù)據(jù)任務(wù)的工具,但確切地說,它們所執(zhí)行的任務(wù)并不相同,彼此也并不排斥
雖然在特定的情況下,Spark據(jù)稱要比Hadoop快100倍,但它本身沒有一個分布式存儲系統(tǒng)
而分布式存儲是如今許多大數(shù)據(jù)項(xiàng)目的基礎(chǔ),它可以將 PB 級的數(shù)據(jù)集存儲在幾乎無限數(shù)量的普通計(jì)算機(jī)的硬盤上,并提供了良好的可擴(kuò)展性,只需要隨著數(shù)據(jù)集的增大增加硬盤
因此,Spark需要一個第三方的分布式存儲,也正是因?yàn)檫@個原因,許多大數(shù)據(jù)項(xiàng)目都將Spark安裝在Hadoop之上,這樣,Spark的高級分析應(yīng)用程序就可以使用存儲在HDFS中的數(shù)據(jù)了
與Hadoop相比,Spark真正的優(yōu)勢在于速度,Spark的大部分操作都是在內(nèi)存中,而Hadoop的MapReduce系統(tǒng)會在每次操作之后將所有數(shù)據(jù)寫回到物理存儲介質(zhì)上,這是為了確保在出現(xiàn)問題時能夠完全恢復(fù),但Spark的彈性分布式數(shù)據(jù)存儲也能實(shí)現(xiàn)這一點(diǎn)
另外,在高級數(shù)據(jù)處理(如實(shí)時流處理、機(jī)器學(xué)習(xí))方面,Spark的功能要勝過Hadoop
在Bernard看來,這一點(diǎn)連同其速度優(yōu)勢是Spark越來越受歡迎的真正原因
實(shí)時處理意味著可以在數(shù)據(jù)捕獲的瞬間將其提交給分析型應(yīng)用程序,并立即獲得反饋
在各種各樣的大數(shù)據(jù)應(yīng)用程序中,這種處理的用途越來越多,比如,零售商使用的推薦引擎、制造業(yè)中的工業(yè)機(jī)械性能監(jiān)控
Spark平臺的速度和流數(shù)據(jù)處理能力也非常適合機(jī)器學(xué)習(xí)算法,這類算法可以自我學(xué)習(xí)和改進(jìn),直到找到問題的理想解決方案
這種技術(shù)是最先進(jìn)制造系統(tǒng)(如預(yù)測零件何時損壞)和無人駕駛汽車的核心
Spark有自己的機(jī)器學(xué)習(xí)庫MLib,而Hadoop系統(tǒng)則需要借助第三方機(jī)器學(xué)習(xí)庫,如Apache Mahout
實(shí)際上,雖然Spark和Hadoop存在一些功能上的重疊,但它們都不是商業(yè)產(chǎn)品,并不存在真正的競爭關(guān)系,而通過為這類免費(fèi)系統(tǒng)提供技術(shù)支持贏利的公司往往同時提供兩種服務(wù)
例如,Cloudera 就既提供 Spark服務(wù)也提供 Hadoop服務(wù),并會根據(jù)客戶的需要提供最合適的建議
Bernard認(rèn)為,雖然Spark發(fā)展迅速,但它尚處于起步階段,安全和技術(shù)支持基礎(chǔ)設(shè)施方還不發(fā)達(dá),在他看來,Spark在開源社區(qū)活躍度的上升,表明企業(yè)用戶正在尋找已存儲數(shù)據(jù)的創(chuàng)新用法
以上就是關(guān)于hdfs適用于什么樣的應(yīng)用場景相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
happybirthday花體粘貼復(fù)制(happybirthdaytome花體可復(fù)制)
Mac不小心把HD盤刪除了(把macintosh hd刪了怎么辦)
極速網(wǎng)絡(luò)優(yōu)化(極速網(wǎng)絡(luò)優(yōu)化軟件)
正規(guī)外匯平臺排行榜(正規(guī)外匯平臺排行榜前十名)