正文

hdfs適用于什么樣的應(yīng)用場景（hdfs主要應(yīng)用在哪些場合）

發(fā)布時間：2023-04-07 17:27:55 稿源：創(chuàng)意嶺閱讀： 80

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于hdfs適用于什么樣的應(yīng)用場景的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com。

創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè)，服務(wù)客戶遍布全球各地，如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043，或添加微信：1454722008

本文目錄:

1、Hadoop的組件MapReduce和HDFS分別是做什么的？
2、hadoop主要應(yīng)用領(lǐng)域包括以下哪些
3、hadoop是做什么的
4、請簡要描述一下hadoop，spark，mpi三種計(jì)算框架的特點(diǎn)以及分別適用于什么樣的場景

hdfs適用于什么樣的應(yīng)用場景（hdfs主要應(yīng)用在哪些場合）

一、Hadoop的組件MapReduce和HDFS分別是做什么的？

hdfs是：hadoop分布式文件系統(tǒng)，主要用于存儲和管理數(shù)據(jù)，而mapreduce是計(jì)算處理框架，主要用于分析處理統(tǒng)計(jì)你存在hdfs上的數(shù)據(jù)集用的

二、hadoop主要應(yīng)用領(lǐng)域包括以下哪些

Hadoop本身是一個生態(tài)圈. 整個生態(tài)圈里包含了底層的分布式存儲HDFS, 計(jì)算框架Mapreduce, 集群調(diào)度管理工具Zookeeper,集群資源管理工具YARN，分布式數(shù)據(jù)庫HBASE等等. 我拿淘寶的店鋪淘生意舉一個例子吧, 可能不是那么準(zhǔn)確:

比如一個店鋪一天有10萬的訪客量, 你想分析的諸如這些訪客來自哪里，性別，年齡，訪問過什么商品，買過什么商品等等都會在訪問網(wǎng)站的時候留下相關(guān)的痕跡文件（簡稱日志），比如這些文件一天就有1TB，那么你怎么存大文件？一個客戶可能對應(yīng)的特性就有上萬條，你怎么在數(shù)據(jù)庫里存大表，又怎么分析用戶特性？這些都依賴于Hadoop的框架.

現(xiàn)在假設(shè)你有一個10臺機(jī)器的集群：

HDFS：可以將你每天生成的1TB文件拆分存儲在這個集群內(nèi). Zookeeper可以監(jiān)控你的文件系統(tǒng)以及其他主從框架的服務(wù)是否正常在線. YARN則可在集群內(nèi)協(xié)調(diào)你的CPU/內(nèi)存資源，當(dāng)有任務(wù)的時候可以合理分配資源進(jìn)行計(jì)算，Mapreduce則是執(zhí)行分析計(jì)算的基本框架，HBASE則可以將你分析后的數(shù)據(jù)保存在整個分布式集群內(nèi). 以供其它應(yīng)用來進(jìn)行進(jìn)一步的分析展示. 其它的Spark/Storm/HIVE/Impala/cassandra 等等在這就不說了.

總之，涉及超大數(shù)據(jù)進(jìn)行存儲分析等領(lǐng)域，都是以Hadoop為基本框架的，至少底層都是HDFS 純手打，忘采納.

三、hadoop是做什么的

hadoop是做分布式系統(tǒng)基礎(chǔ)架構(gòu)。

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)，一個能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架； Hadoop以一種可靠、高效、可伸縮的方式進(jìn)行數(shù)據(jù)處理；用戶可以在不了解分布式底層細(xì)節(jié)的情況下，開發(fā)分布式程序。

hdfs適用于什么樣的應(yīng)用場景（hdfs主要應(yīng)用在哪些場合）

用戶可以輕松地在Hadoop上開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。

Hadoop實(shí)現(xiàn)了一個分布式文件系統(tǒng)（Hadoop Distributed File System），簡稱HDFS。HDFS有高容錯性的特點(diǎn)，并且設(shè)計(jì)用來部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）來訪問應(yīng)用程序的數(shù)據(jù)，適合那些有著超大數(shù)據(jù)集（large data set）的應(yīng)用程序。HDFS放寬了（relax）POSIX的要求，可以以流的形式訪問（streaming access）文件系統(tǒng)中的數(shù)據(jù)。

Hadoop的框架最核心的設(shè)計(jì)就是：HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲，而MapReduce則為海量的數(shù)據(jù)提供了計(jì)算。

Hadoop主要有以下優(yōu)點(diǎn)：

高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。

高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的，這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。

高效性。Hadoop能夠在節(jié)點(diǎn)之間動態(tài)地移動數(shù)據(jù)，并保證各個節(jié)點(diǎn)的動態(tài)平衡，因此處理速度非?？?。高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本，并且能夠自動將失敗的任務(wù)重新分配。

低成本。與一體機(jī)、商用數(shù)據(jù)倉庫以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比，hadoop是開源的，項(xiàng)目的軟件成本因此會大大降低。

Hadoop帶有用Java語言編寫的框架，因此運(yùn)行在 Linux 生產(chǎn)平臺上是非常理想的。Hadoop 上的應(yīng)用程序也可以使用其他語言編寫，比如 C++。

四、請簡要描述一下hadoop，spark，mpi三種計(jì)算框架的特點(diǎn)以及分別適用于什么樣的場景

Spark已經(jīng)取代Hadoop成為最活躍的開源大數(shù)據(jù)項(xiàng)目，但是，在選擇大數(shù)據(jù)框架時，企業(yè)不能因此就厚此薄彼

近日，著名大數(shù)據(jù)專家Bernard Marr在一篇文章中分析了Spark和 Hadoop 的異同

Hadoop和Spark均是大數(shù)據(jù)框架，都提供了一些執(zhí)行常見大數(shù)據(jù)任務(wù)的工具，但確切地說，它們所執(zhí)行的任務(wù)并不相同，彼此也并不排斥

雖然在特定的情況下，Spark據(jù)稱要比Hadoop快100倍，但它本身沒有一個分布式存儲系統(tǒng)

而分布式存儲是如今許多大數(shù)據(jù)項(xiàng)目的基礎(chǔ)，它可以將 PB 級的數(shù)據(jù)集存儲在幾乎無限數(shù)量的普通計(jì)算機(jī)的硬盤上，并提供了良好的可擴(kuò)展性，只需要隨著數(shù)據(jù)集的增大增加硬盤

因此，Spark需要一個第三方的分布式存儲，也正是因?yàn)檫@個原因，許多大數(shù)據(jù)項(xiàng)目都將Spark安裝在Hadoop之上，這樣，Spark的高級分析應(yīng)用程序就可以使用存儲在HDFS中的數(shù)據(jù)了

與Hadoop相比，Spark真正的優(yōu)勢在于速度，Spark的大部分操作都是在內(nèi)存中，而Hadoop的MapReduce系統(tǒng)會在每次操作之后將所有數(shù)據(jù)寫回到物理存儲介質(zhì)上，這是為了確保在出現(xiàn)問題時能夠完全恢復(fù)，但Spark的彈性分布式數(shù)據(jù)存儲也能實(shí)現(xiàn)這一點(diǎn)

另外，在高級數(shù)據(jù)處理（如實(shí)時流處理、機(jī)器學(xué)習(xí)）方面，Spark的功能要勝過Hadoop

在Bernard看來，這一點(diǎn)連同其速度優(yōu)勢是Spark越來越受歡迎的真正原因

實(shí)時處理意味著可以在數(shù)據(jù)捕獲的瞬間將其提交給分析型應(yīng)用程序，并立即獲得反饋

在各種各樣的大數(shù)據(jù)應(yīng)用程序中，這種處理的用途越來越多，比如，零售商使用的推薦引擎、制造業(yè)中的工業(yè)機(jī)械性能監(jiān)控

Spark平臺的速度和流數(shù)據(jù)處理能力也非常適合機(jī)器學(xué)習(xí)算法，這類算法可以自我學(xué)習(xí)和改進(jìn)，直到找到問題的理想解決方案

這種技術(shù)是最先進(jìn)制造系統(tǒng)（如預(yù)測零件何時損壞）和無人駕駛汽車的核心

Spark有自己的機(jī)器學(xué)習(xí)庫MLib，而Hadoop系統(tǒng)則需要借助第三方機(jī)器學(xué)習(xí)庫，如Apache Mahout

實(shí)際上，雖然Spark和Hadoop存在一些功能上的重疊，但它們都不是商業(yè)產(chǎn)品，并不存在真正的競爭關(guān)系，而通過為這類免費(fèi)系統(tǒng)提供技術(shù)支持贏利的公司往往同時提供兩種服務(wù)

例如，Cloudera 就既提供 Spark服務(wù)也提供 Hadoop服務(wù)，并會根據(jù)客戶的需要提供最合適的建議

Bernard認(rèn)為，雖然Spark發(fā)展迅速，但它尚處于起步階段，安全和技術(shù)支持基礎(chǔ)設(shè)施方還不發(fā)達(dá)，在他看來，Spark在開源社區(qū)活躍度的上升，表明企業(yè)用戶正在尋找已存儲數(shù)據(jù)的創(chuàng)新用法

以上就是關(guān)于hdfs適用于什么樣的應(yīng)用場景相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會為您講解更多精彩的知識和內(nèi)容。