-
當(dāng)前位置:首頁(yè) > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
谷歌公司大數(shù)據(jù)三大技術(shù)(谷歌公司大數(shù)據(jù)三大技術(shù)是什么)
大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于谷歌公司大數(shù)據(jù)三大技術(shù)的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。
開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫(xiě)出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、谷歌公司如何獲得大數(shù)據(jù)
谷歌有50多萬(wàn)臺(tái)服務(wù)器,是世界上服務(wù)器最多的公司,所存儲(chǔ)的數(shù)據(jù)可想而知了?!獧幟蕦W(xué)院大數(shù)據(jù)。
二、大數(shù)據(jù)技術(shù)有哪些
大數(shù)據(jù)技術(shù),就是從各種類型的數(shù)據(jù)中快速獲得有價(jià)值信息的技術(shù)。
大數(shù)據(jù)領(lǐng)域已經(jīng)涌現(xiàn)出了大量新的技術(shù),它們成為大數(shù)據(jù)采集、存儲(chǔ)、處理和呈現(xiàn)的有力武器。
大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)安全等)。
一、大數(shù)據(jù)采集技術(shù)
數(shù)據(jù)是指通過(guò)RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)及移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得的各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化(或稱之為弱結(jié)構(gòu)化)及非結(jié)構(gòu)化的海量數(shù)據(jù),是大數(shù)據(jù)知識(shí)服務(wù)模型的根本。
重點(diǎn)要突破分布式高速高可靠數(shù)據(jù)爬取或采集、高速數(shù)據(jù)全映像等大數(shù)據(jù)收集技術(shù);突破高速數(shù)據(jù)解析、轉(zhuǎn)換與裝載等大數(shù)據(jù)整合技術(shù);設(shè)計(jì)質(zhì)量評(píng)估模型,開(kāi)發(fā)數(shù)據(jù)質(zhì)量技術(shù)。
互聯(lián)網(wǎng)是個(gè)神奇的大網(wǎng),大數(shù)據(jù)開(kāi)發(fā)和軟件定制也是一種模式,這里提供最詳細(xì)的報(bào)價(jià),如果你真的想做,可以來(lái)這里,這個(gè)手機(jī)的開(kāi)始數(shù)字是一八七中間的是三兒
零最后的是一四二五零,按照順序組合起來(lái)就可以找到,我想說(shuō)的是,除非你想做或者了解這方面的內(nèi)容,如果只是湊熱鬧的話,就不要來(lái)了。
大數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層:主要包括數(shù)據(jù)傳感體系、網(wǎng)絡(luò)通信體系、傳感適配體系、智能識(shí)別體系及軟硬件資源接入系統(tǒng),實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識(shí)別、定位、跟蹤、接入、傳輸、信號(hào)轉(zhuǎn)換、監(jiān)控、初步處理和管理等。
必須著重攻克針對(duì)大數(shù)據(jù)源的智能識(shí)別、感知、適配、傳輸、接入等技術(shù)。
基礎(chǔ)支撐層:提供大數(shù)據(jù)服務(wù)平臺(tái)所需的虛擬服務(wù)器,結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫(kù)及物聯(lián)網(wǎng)絡(luò)資源等基礎(chǔ)支撐環(huán)境。
重點(diǎn)攻克分布式虛擬存儲(chǔ)技術(shù),大數(shù)據(jù)獲取、存儲(chǔ)、組織、分析和決策操作的可視化接口技術(shù),大數(shù)據(jù)的網(wǎng)絡(luò)傳輸與壓縮技術(shù),大數(shù)據(jù)隱私保護(hù)技術(shù)等。
二、大數(shù)據(jù)預(yù)處理技術(shù)
主要完成對(duì)已接收數(shù)據(jù)的辨析、抽取、清洗等操作。
1)抽取:因獲取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型,數(shù)據(jù)抽取過(guò)程可以幫助我們將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的構(gòu)型,以達(dá)到快速分析處理的目的。
2)清洗:對(duì)于大數(shù)據(jù),并不全是有價(jià)值的,有些數(shù)據(jù)并不是我們所關(guān)心的內(nèi)容,而另一些數(shù)據(jù)則是完全錯(cuò)誤的干擾項(xiàng),因此要對(duì)數(shù)據(jù)通過(guò)過(guò)濾“去噪”從而提取出有效數(shù)據(jù)。
三、大數(shù)據(jù)存儲(chǔ)及管理技術(shù)
大數(shù)據(jù)存儲(chǔ)與管理要用存儲(chǔ)器把采集到的數(shù)據(jù)存儲(chǔ)起來(lái),建立相應(yīng)的數(shù)據(jù)庫(kù),并進(jìn)行管理和調(diào)用。
重點(diǎn)解決復(fù)雜結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)管理與處理技術(shù)。
主要解決大數(shù)據(jù)的可存儲(chǔ)、可表示、可處理、可靠性及有效傳輸?shù)葞讉€(gè)關(guān)鍵問(wèn)題。
開(kāi)發(fā)可靠的分布式文件系統(tǒng)(DFS)、能效優(yōu)化的存儲(chǔ)、計(jì)算融入存儲(chǔ)、大數(shù)據(jù)的去冗余及高效低成本的大數(shù)據(jù)存儲(chǔ)技術(shù);突破分布式非關(guān)系型大數(shù)據(jù)管理與處理技術(shù),異構(gòu)數(shù)據(jù)的數(shù)據(jù)融合技術(shù),數(shù)據(jù)組織技術(shù),研究大數(shù)據(jù)建模技術(shù);突破大數(shù)據(jù)索引技術(shù);突破大數(shù)據(jù)移動(dòng)、備份、復(fù)制等技術(shù);開(kāi)發(fā)大數(shù)據(jù)可視化技術(shù)。
開(kāi)發(fā)新型數(shù)據(jù)庫(kù)技術(shù),數(shù)據(jù)庫(kù)分為關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)以及數(shù)據(jù)庫(kù)緩存系統(tǒng)。
其中,非關(guān)系型數(shù)據(jù)庫(kù)主要指的是NoSQL數(shù)據(jù)庫(kù),分為:鍵值數(shù)據(jù)庫(kù)、列存數(shù)據(jù)庫(kù)、圖存數(shù)據(jù)庫(kù)以及文檔數(shù)據(jù)庫(kù)等類型。
關(guān)系型數(shù)據(jù)庫(kù)包含了傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)以及NewSQL數(shù)據(jù)庫(kù)。
開(kāi)發(fā)大數(shù)據(jù)安全技術(shù)。
改進(jìn)數(shù)據(jù)銷毀、透明加解密、分布式訪問(wèn)控制、數(shù)據(jù)審計(jì)等技術(shù);突破隱私保護(hù)和推理控制、數(shù)據(jù)真?zhèn)巫R(shí)別和取證、數(shù)據(jù)持有完整性驗(yàn)證等技術(shù)。
四、大數(shù)據(jù)分析及挖掘技術(shù)
大數(shù)據(jù)分析技術(shù)。
改進(jìn)已有數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù);開(kāi)發(fā)數(shù)據(jù)網(wǎng)絡(luò)挖掘、特異群組挖掘、圖挖掘等新型數(shù)據(jù)挖掘技術(shù);突破基于對(duì)象的數(shù)據(jù)連接、相似性連接等大數(shù)據(jù)融合技術(shù);突破用戶興趣分析、網(wǎng)絡(luò)行為分析、情感語(yǔ)義分析等面向領(lǐng)域的大數(shù)據(jù)挖掘技術(shù)。
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。
數(shù)據(jù)挖掘涉及的技術(shù)方法很多,有多種分類法。
根據(jù)挖掘任務(wù)可分為分類或預(yù)測(cè)模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等等;根據(jù)挖掘?qū)ο罂煞譃殛P(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、遺產(chǎn)數(shù)據(jù)庫(kù)以及環(huán)球網(wǎng)Web;根據(jù)挖掘方法分,可粗分為:機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法。
機(jī)器學(xué)習(xí)中,可細(xì)分為:歸納學(xué)習(xí)方法(決策樹(shù)、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法等。
統(tǒng)計(jì)方法中,可細(xì)分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動(dòng)態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)等。
神經(jīng)網(wǎng)絡(luò)方法中,可細(xì)分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競(jìng)爭(zhēng)學(xué)習(xí)等)等。
數(shù)據(jù)庫(kù)方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。
從挖掘任務(wù)和挖掘方法的角度,著重突破:
1.可視化分析。
數(shù)據(jù)可視化無(wú)論對(duì)于普通用戶或是數(shù)據(jù)分析專家,都是最基本的功能。
數(shù)據(jù)圖像化可以讓數(shù)據(jù)自己說(shuō)話,讓用戶直觀的感受到結(jié)果。
2.數(shù)據(jù)挖掘算法。
圖像化是將機(jī)器語(yǔ)言翻譯給人看,而數(shù)據(jù)挖掘就是機(jī)器的母語(yǔ)。
分割、集群、孤立點(diǎn)分析還有各種各樣五花八門(mén)的算法讓我們精煉數(shù)據(jù),挖掘價(jià)值。
這些算法一定要能夠應(yīng)付大數(shù)據(jù)的量,同時(shí)還具有很高的處理速度。
3.預(yù)測(cè)性分析。
預(yù)測(cè)性分析可以讓分析師根據(jù)圖像化分析和數(shù)據(jù)挖掘的結(jié)果做出一些前瞻性判斷。
4.語(yǔ)義引擎。
語(yǔ)義引擎需要設(shè)計(jì)到有足夠的人工智能以足以從數(shù)據(jù)中主動(dòng)地提取信息。
語(yǔ)言處理技術(shù)包括機(jī)器翻譯、情感分析、輿情分析、智能輸入、問(wèn)答系統(tǒng)等。
5.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。
數(shù)據(jù)質(zhì)量與管理是管理的最佳實(shí)踐,透過(guò)標(biāo)準(zhǔn)化流程和機(jī)器對(duì)數(shù)據(jù)進(jìn)行處理可以確保獲得一個(gè)預(yù)設(shè)質(zhì)量的分析結(jié)果。
六、大數(shù)據(jù)展現(xiàn)與應(yīng)用技術(shù)
大數(shù)據(jù)技術(shù)能夠?qū)㈦[藏于海量數(shù)據(jù)中的信息和知識(shí)挖掘出來(lái),為人類的社會(huì)經(jīng)濟(jì)活動(dòng)提供依據(jù),從而提高各個(gè)領(lǐng)域的運(yùn)行效率,大大提高整個(gè)社會(huì)經(jīng)濟(jì)的集約化程度。
在我國(guó),大數(shù)據(jù)將重點(diǎn)應(yīng)用于以下三大領(lǐng)域:商業(yè)智能、 *** 決策、公共服務(wù)。
例如:商業(yè)智能技術(shù), *** 決策技術(shù),電信數(shù)據(jù)信息處理與挖掘技術(shù),電網(wǎng)數(shù)據(jù)信息處理與挖掘技術(shù),氣象信息分析技術(shù),環(huán)境監(jiān)測(cè)技術(shù),警務(wù)云應(yīng)用系統(tǒng)(道路監(jiān)控、視頻監(jiān)控、網(wǎng)絡(luò)監(jiān)控、智能交通、反電信詐騙、指揮調(diào)度等公安信息系統(tǒng)),大規(guī)?;蛐蛄蟹治霰葘?duì)技術(shù),Web信息挖掘技術(shù),多媒體數(shù)據(jù)并行化處理技術(shù),影視制作渲染技術(shù),其他各種行業(yè)的云計(jì)算和海量數(shù)據(jù)處理應(yīng)用技術(shù)等。
三、谷歌采用搜索引擎大數(shù)據(jù)進(jìn)行流感趨勢(shì)預(yù)測(cè)體現(xiàn)了哪種大數(shù)據(jù)思維方
全樣而非抽樣。
根據(jù)谷歌官方網(wǎng)站顯示,谷歌采用搜索引擎大數(shù)據(jù)進(jìn)行流感趨勢(shì)預(yù)測(cè)體現(xiàn)了,全樣而非抽樣大數(shù)據(jù)思維方式。
谷歌公司)成立于1998年9月4日,由拉里·佩奇和謝爾蓋·布林共同創(chuàng)建,被公認(rèn)為全球最大的搜索引擎公司。
四、Google的搜索速度為什么這么快?
是?。?!
有N條1000M光纖,N個(gè)服務(wù)器級(jí)的硬盤(pán)組成陣列!
1.1 前互聯(lián)網(wǎng)搜索時(shí)代
在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對(duì)較少,信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到所需的資料簡(jiǎn)直如同大海撈針,這時(shí)為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。
所有搜索引擎的祖先,是1990年由Montreal的McGill University學(xué)生Alan Emtage、Peter Deutsch、Bill Wheelan發(fā)明的Archie(Archie FAQ)。當(dāng)時(shí)World Wide Web還未出現(xiàn)。Archie是第一個(gè)自動(dòng)索引互聯(lián)網(wǎng)上匿名FTP網(wǎng)站文件的程序,但它還不是真正的搜索引擎。Archie是一個(gè)可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然后Archie會(huì)告訴用戶哪一個(gè)FTP地址可以下載該文件。
Archie工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近,它依靠腳本程序自動(dòng)搜索網(wǎng)上的文件,然后對(duì)有關(guān)信息進(jìn)行索引,供使用者以一定的表達(dá)式查詢。由于Archie深受用戶歡迎,受其啟發(fā),美國(guó)內(nèi)華達(dá)System Computing Services大學(xué)于1993年開(kāi)發(fā)了另一個(gè)與之非常相似的搜索工具,不過(guò)此時(shí)的搜索工具除了索引文件外,已能檢索網(wǎng)頁(yè)。
當(dāng)時(shí),“機(jī)器人”一詞在編程者中十分流行。電腦“機(jī)器人”(Computer Robot)是指某個(gè)能以人類無(wú)法達(dá)到的速度不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。由于專門(mén)用于檢索信息的“機(jī)器人”程序象蜘蛛一樣在網(wǎng)絡(luò)間爬來(lái)爬去,因此,搜索引擎的“機(jī)器人”程序就被稱為“蜘蛛”程序。由于專門(mén)用于檢索信息的Robot程序象蜘蛛(spider)一樣在網(wǎng)絡(luò)間爬來(lái)爬去,因此,搜索引擎的Robot程序被稱為spider(SpiderFAQ)程序。世界上第一個(gè)Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追蹤互聯(lián)網(wǎng)發(fā)展規(guī)模。剛開(kāi)始它只用來(lái)統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來(lái)則發(fā)展為也能夠捕獲網(wǎng)址(URL)。
世界上第一個(gè)用于監(jiān)測(cè)互聯(lián)網(wǎng)發(fā)展規(guī)模的“機(jī)器人”程序是Matthew Gray開(kāi)發(fā)的World wide Web Wanderer。剛開(kāi)始它只用來(lái)統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來(lái)則發(fā)展為能夠檢索網(wǎng)站域名。
與Wanderer相對(duì)應(yīng),1993年10月Martijn Koster創(chuàng)建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相當(dāng)于Archie的HTTP版本。ALIWEB不使用網(wǎng)絡(luò)搜尋Robot,如果網(wǎng)站主管們希望自己的網(wǎng)頁(yè)被ALIWEB收錄,需要自己提交每一個(gè)網(wǎng)頁(yè)的簡(jiǎn)介索引信息,類似于后來(lái)大家熟知的Yahoo。
1993年底,一些基于此原理的搜索引擎開(kāi)始紛紛涌現(xiàn),其中最負(fù)盛名的三個(gè)是:Scotland的JumpStation、Colorado大學(xué)Oliver McBryan的The World Wide Web Worm(First Mention of McBryan's World Wide Web Worm)、NASA的Repository-Based Software Engineering(RBSE)spider。隨著互聯(lián)網(wǎng)的迅速發(fā)展,使得檢索所有新出現(xiàn)的網(wǎng)頁(yè)變得越來(lái)越困難,因此,在Matthew Gray的Wanderer基礎(chǔ)上,一些編程者將傳統(tǒng)的“蜘蛛”程序工作原理作了些改進(jìn)。其設(shè)想是,既然所有網(wǎng)頁(yè)都可能有連向其他網(wǎng)站的鏈接,那么從跟蹤一個(gè)網(wǎng)站的鏈接開(kāi)始,就有可能檢索整個(gè)互聯(lián)網(wǎng)。然而Jump Station和WWW Worm只是以搜索工具在數(shù)據(jù)庫(kù)中找到匹配信息的先后次序排列搜索結(jié)果,因此毫無(wú)信息關(guān)聯(lián)度可言。而RBSE是第一個(gè)在搜索結(jié)果排列中引入關(guān)鍵字串匹配程度概念的引擎。
1993年2月,6個(gè)Stanford(斯坦福)大學(xué)生的想法是分析字詞關(guān)系,以對(duì)互聯(lián)網(wǎng)上的大量信息作更有效的檢索。這就是Excite。后來(lái)曾以概念搜索聞名,2002年5月,被Infospace收購(gòu)的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile
1994年1月,第一個(gè)既可搜索又可瀏覽的分類目錄EINetGalaxy(Tradewave Galaxy)上線。除了網(wǎng)站搜索,它還支持Gopher和Telnet搜索。
1994年4月,Stanford兩名博士生,美籍華人Jerry Yang(楊致遠(yuǎn))和David Filo共同創(chuàng)辦了Yahoo。隨著訪問(wèn)量和收錄鏈接數(shù)的增長(zhǎng),Yahoo目錄開(kāi)始支持簡(jiǎn)單的數(shù)據(jù)庫(kù)搜索。因?yàn)閅ahoo!的數(shù)據(jù)是手工輸入的,所以不能真正被歸為搜索引擎,事實(shí)上只是一個(gè)可搜索的目錄。搜索效率明顯提高。(Yahoo以后陸續(xù)使用Altavista、Inktomi、Google提供搜索引擎服務(wù))
1994年初,Washington大學(xué)CS學(xué)生Brian Pinkerton開(kāi)始了他的小項(xiàng)目Web Crawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,Web Crawler正式亮相時(shí)僅包含來(lái)自6000個(gè)服務(wù)器的內(nèi)容。Web Crawler是互聯(lián)網(wǎng)上第一個(gè)支持搜索文件全部文字的全文搜索引擎,在它之前,用戶只能通過(guò)URL和摘要搜索,摘要一般來(lái)自人工評(píng)論或程序自動(dòng)取正文的前100個(gè)字。(后來(lái)web crawler陸續(xù)被AOL和Excite收購(gòu),現(xiàn)在和excite一樣改用元搜索引擎Dogpile)
1.2 互聯(lián)網(wǎng)搜索時(shí)代
最早現(xiàn)代意義上的搜索引擎出現(xiàn)于1994年7月。當(dāng)時(shí)Michael Mauldin將John Leavitt的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的Lycos。同年4月,斯坦福(Stanford)大學(xué)的兩名博士生,David Filo和美籍華人楊致遠(yuǎn)(Gerry Yang)共同創(chuàng)辦了超級(jí)目錄索引Yahoo,并成功地使搜索引擎的概念深入人心。從此搜索引擎進(jìn)入了高速發(fā)展時(shí)期。目前,互聯(lián)網(wǎng)上有名有姓的搜索引擎已達(dá)數(shù)百家,其檢索的信息量也與從前不可同日而語(yǔ)。比如最近風(fēng)頭正勁的Google,其數(shù)據(jù)庫(kù)中存放的網(wǎng)頁(yè)已達(dá)30億之巨!
隨著互聯(lián)網(wǎng)規(guī)模的急劇膨脹,一家搜索引擎光靠自己?jiǎn)未颡?dú)斗已無(wú)法適應(yīng)目前的市場(chǎng)狀況,因此現(xiàn)在搜索引擎之間開(kāi)始出現(xiàn)了分工協(xié)作,并有了專業(yè)的搜索引擎技術(shù)和搜索數(shù)據(jù)庫(kù)服務(wù)提供商。象國(guó)外的Inktomi,它本身并不是直接面向用戶的搜索引擎,但向包括Overture(原GoTo)、LookSmart、MSN、HotBot等在內(nèi)的其他搜索引擎提供全文網(wǎng)頁(yè)搜索服務(wù)。國(guó)內(nèi)的百度也屬于這一類,搜狐和新浪用的就是它的技術(shù)。因此從這個(gè)意義上說(shuō),它們是搜索引擎的搜索引擎。
Lycos(Carnegie Mellon University Center for Machine Translation Announces Lycos)是搜索引擎史上又一個(gè)重要的進(jìn)步。Carnegie Mellon University的Michael Mauldin將John Leavitt的spider程序接入到其索引程序中,創(chuàng)建了Lycos。1994年7月20日,數(shù)據(jù)量為54,000的Lycos正式發(fā)布。除了相關(guān)性排序外,Lycos還提供了前綴匹配和字符相近限制,Lycos第一個(gè)在搜索結(jié)果中使用了網(wǎng)頁(yè)自動(dòng)摘要,而最大的優(yōu)勢(shì)還是它遠(yuǎn)勝過(guò)其它搜索引擎的數(shù)據(jù)量:1994年8月--394,000 documents;1995年1月--1.5 million documents;1996年11月--over 60 million documents。(注:1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服務(wù))
Infoseek(Steve Kirsch Announces Free Demos Of the Infoseek Search Engine)是另一個(gè)重要的搜索引擎,雖然公司聲稱1994年1月已創(chuàng)立,但直到年底它的搜索引擎才與公眾見(jiàn)面。起初,Infoseek只是一個(gè)不起眼的搜索引擎,它沿襲Yahoo!和Lycos的概念,并沒(méi)有什么獨(dú)特的革新。但是它的發(fā)展史和后來(lái)受到的眾口稱贊證明,起初第一個(gè)登臺(tái)并不總是很重要。Infoseek友善的用戶界面、大量附加服務(wù)(such as UPStracking,News,adirectory,and the like)使它聲望日隆。而1995年12月與Netscape的戰(zhàn)略性協(xié)議,使它成為一個(gè)強(qiáng)勢(shì)搜索引擎:當(dāng)用戶點(diǎn)擊Netscape瀏覽器上的搜索按鈕時(shí),彈出Infoseek的搜索服務(wù),而此前由Yahoo!提供該服務(wù)。(注:Infoseek后來(lái)曾以相關(guān)性聞名,2001年2月,Infoseek停止了自己的搜索引擎,開(kāi)始改用Overture的搜索結(jié)果)
1995年,一種新的搜索引擎形式出現(xiàn)了——元搜索引擎(A Meta Search Engine Roundup)。用戶只需提交一次搜索請(qǐng)求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將從各獨(dú)立搜索引擎返回的所有查詢結(jié)果,集中起來(lái)處理后再返回給用戶。第一個(gè)元搜索引擎,是Washington大學(xué)碩士生Eric Selberg和Oren Etzioni的Metacrawler。元搜索引擎概念上好聽(tīng),但搜索效果始終不理想,所以沒(méi)有哪個(gè)元搜索引擎有過(guò)強(qiáng)勢(shì)地位。
DEC的AltaVista(2001年夏季起部分網(wǎng)友需通過(guò)p-roxy訪問(wèn),無(wú)p-roxy可用qbseach單選altavista搜索,只能顯示第一頁(yè)搜索結(jié)果)是一個(gè)遲到者,1995年12月才登場(chǎng)亮相(AltaVista Public Beta Press Release)。但是,大量的創(chuàng)新功能使它迅速到達(dá)當(dāng)時(shí)搜索引擎的頂峰。Altavista最突出的優(yōu)勢(shì)是它的速度。而Altavista的另一些新功能,則永遠(yuǎn)改變了搜索引擎的定義。AltaVista是第一個(gè)支持自然語(yǔ)言搜索的搜索引擎,AltaVista是第一個(gè)實(shí)現(xiàn)高級(jí)搜索語(yǔ)法的搜索引擎(如AND,OR,NOT等)。用戶可以用AltaVista搜索Newsgroups(新聞組)的內(nèi)容并從互聯(lián)網(wǎng)上獲得文章,還可以搜索圖片名稱中的文字、搜索Titles、搜索Java applets、搜索ActiveXobjects。AltaVista也聲稱是第一個(gè)支持用戶自己向網(wǎng)頁(yè)索引庫(kù)提交或刪除URL的搜索引擎,并能在24小時(shí)內(nèi)上線。AltaVista最有趣的新功能之一,是搜索有鏈接指向某個(gè)URL的所有網(wǎng)站。在面向用戶的界面上,AltaVista也作了大量革新。它在搜索框區(qū)域下放了“tips”以幫助用戶更好的表達(dá)搜索式,這些小tip經(jīng)常更新,這樣,在搜索過(guò)幾次以后,用戶會(huì)看到很多他們可能從來(lái)不知道的的有趣功能。這系列功能,逐漸被其它搜索引擎廣泛采用。
1997年,AltaVista發(fā)布了一個(gè)圖形演示系統(tǒng)LiveTopics,幫助用戶從成千上萬(wàn)的搜索結(jié)果中找到想要的。
然后到來(lái)的是HotBot。1995年9月26日,加州伯克利分校CS助教EricBrewer、博士生PaulGauthier創(chuàng)立了Inktomi(UCBerkeley Announces Inktomi),1996年5月20日,Inktomi公司成立,強(qiáng)大的HotBot出現(xiàn)在世人面前。聲稱每天能抓取索引1千萬(wàn)頁(yè)以上,所以有遠(yuǎn)超過(guò)其它搜索引擎的新內(nèi)容。HotBot也大量運(yùn)用cookie儲(chǔ)存用戶的個(gè)人搜索喜好設(shè)置。(Hotbot曾是隨后幾年最受歡迎的搜索引擎之一,后被Lycos收購(gòu))
Northernlight公司于1995年9月成立于馬薩諸塞州劍橋,1997年8月,Northernlight搜索引擎正式現(xiàn)身。它曾是擁有最大數(shù)據(jù)庫(kù)的搜索引擎之一,它沒(méi)有Stop Words,它有出色的Current News、7,100多出版物組成的Special Collection、良好的高級(jí)搜索語(yǔ)法,第一個(gè)支持對(duì)搜索結(jié)果進(jìn)行簡(jiǎn)單的自動(dòng)分類。(2002年1月16日,Northernlight公共搜索引擎關(guān)閉,隨后被divine收購(gòu),但在Nlresearch,選中"World Wide Web only",仍可使用Northernlight搜索引擎)
1998年10月之前,Google只是Stanford大學(xué)的一個(gè)小項(xiàng)目BackRub。1995年博士生LarryPage開(kāi)始學(xué)習(xí)搜索引擎設(shè)計(jì),于1997年9月15日注冊(cè)了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同參與下,Bach Rub開(kāi)始提供Demo。1999年2月,Google完成了從Alpha版到Beta版的蛻變。Google公司則把1998年9月27日認(rèn)作自己的生日。
Google在Pagerank、動(dòng)態(tài)摘要、網(wǎng)頁(yè)快照、Daily Refresh、多文檔格式支持、地圖股票詞典尋人等集成搜索、多語(yǔ)言支持、用戶界面等功能上的革新,象Altavista一樣,再一次永遠(yuǎn)改變了搜索引擎的定義。
在2000年中以前,Google雖然以搜索準(zhǔn)確性備受贊譽(yù),但因?yàn)閿?shù)據(jù)庫(kù)不如其它搜索引擎大,缺乏高級(jí)搜索語(yǔ)法,所以使用價(jià)值不是很高,推廣并不快。直到2000年中數(shù)據(jù)庫(kù)升級(jí)后,又借被Yahoo選作搜索引擎的東風(fēng),才一飛沖天。
Fast(Alltheweb)公司創(chuàng)立于1997年,是挪威科技大學(xué)(NTNU)學(xué)術(shù)研究的副產(chǎn)品。1999年5月,發(fā)布了自己的搜索引擎AllTheWeb。Fast創(chuàng)立的目標(biāo)是做世界上最大和最快的搜索引擎,幾年來(lái)庶幾近之。Fast(Alltheweb)的網(wǎng)頁(yè)搜索可利用ODP自動(dòng)分類,支持Flash和pdf搜索,支持多語(yǔ)言搜索,還提供新聞搜索、圖像搜索、視頻、MP3、和FTP搜索,擁有極其強(qiáng)大的高級(jí)搜索功能。
Teoma起源于1998年Rutgers大學(xué)的一個(gè)項(xiàng)目。Apostolos Gerasoulis教授帶領(lǐng)華裔TaoYang教授等人創(chuàng)立Teoma于新澤西Piscataway,2001年春初次登場(chǎng),2001年9月被提問(wèn)式搜索引擎Ask Jeeves收購(gòu),2002年4月再次發(fā)布。Teoma的數(shù)據(jù)庫(kù)目前仍偏小,但有兩個(gè)出彩的功能:支持類似自動(dòng)分類的Refine;同時(shí)提供專業(yè)鏈接目錄的Resources。
Wisenut由韓裔Yeogirl Yun創(chuàng)立。2001年春季發(fā)布Beta版,2001年9月5日發(fā)布正式版,2002年4月被分類目錄提供商looksmart收購(gòu)。wisenut也有兩個(gè)出彩的功能:包含類似自動(dòng)分類和相關(guān)檢索詞的Wise Guide;預(yù)覽搜索結(jié)果的Sneak-a-Peek。
Gigablast由前Infoseek工程師Matt Wells創(chuàng)立,2002年3月展示pre-beta版,2002年7月21日發(fā)布Beta版。Gigablast的數(shù)據(jù)庫(kù)目前仍偏小,但也提供網(wǎng)頁(yè)快照,一個(gè)特色功能是即時(shí)索引網(wǎng)頁(yè),你的網(wǎng)頁(yè)剛提交它就能搜索(注:這個(gè)spammers的肉包子功能暫已關(guān)閉)。
Openfind創(chuàng)立于1998年1月,其技術(shù)源自臺(tái)灣中正大學(xué)吳升教授所領(lǐng)導(dǎo)的GAIS實(shí)驗(yàn)室。Openfind起先只做中文搜索引擎,曾經(jīng)是最好的中文搜索引擎,鼎盛時(shí)期同時(shí)為三大著名門(mén)戶新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市場(chǎng)逐漸被Baidu和Google瓜分。2002年6月,Openfind重新發(fā)布基于GAIS30Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累計(jì)抓取網(wǎng)頁(yè)35億,開(kāi)始進(jìn)入英文搜索領(lǐng)域,此后技術(shù)升級(jí)明顯加快。
北大天網(wǎng)是國(guó)家"九五"重點(diǎn)科技攻關(guān)項(xiàng)目"中文編碼和分布式中英文信息發(fā)現(xiàn)"的研究成果,由北大計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)研究室開(kāi)發(fā),于1997年10月29日正式在CERNET上提供服務(wù)。2000年初成立天網(wǎng)搜索引擎新課題組,由國(guó)家973重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃項(xiàng)目基金資助開(kāi)發(fā),收錄網(wǎng)頁(yè)約6000萬(wàn),利用教育網(wǎng)優(yōu)勢(shì),有強(qiáng)大的ftp搜索功能。
2000年1月,超鏈分析專利發(fā)明人、前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士)在北京中關(guān)村創(chuàng)立了百度(Baidu)公司。2001年8月發(fā)布Baidu.com搜索引擎Beta版(此前Baidu只為其它門(mén)戶網(wǎng)站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式發(fā)布Baidu搜索引擎。Baidu雖然只提供中文搜索,但目前收錄中文網(wǎng)頁(yè)超過(guò)9000萬(wàn),可能是最大的的中文數(shù)據(jù)庫(kù)。Baidu搜索引擎的其它特色包括:網(wǎng)頁(yè)快照、網(wǎng)頁(yè)預(yù)覽/預(yù)覽全部網(wǎng)頁(yè)、相關(guān)搜索詞、錯(cuò)別字糾正提示、新聞搜索、Flash搜索、信息快遞搜索。2002年3月閃電計(jì)劃(Blitzen Project)開(kāi)始后,技術(shù)升級(jí)明顯加快。
1.3 搜索引擎大事記
1990年, McGill University學(xué)生Alan Emtage、Peter Deutsch、Bill Wheelan發(fā)明Archie(Archie FAQ)。
1993年,美國(guó)內(nèi)華達(dá)System Computing Services大學(xué)開(kāi)發(fā)了另一個(gè)與Archie非常相似的搜索工具,不過(guò)此時(shí)的搜索工具除了索引文件外,已能檢索網(wǎng)頁(yè)。
1993年,Matthew Gray開(kāi)發(fā)的World wide Web Wanderer,是世界上第一個(gè)用于監(jiān)測(cè)互聯(lián)網(wǎng)發(fā)展規(guī)模的“機(jī)器人”程序。
1993年10月,Martin Koster創(chuàng)建了ALIWEB,它是Archie的HTTP版本。
1993年底,一些基于此原理的搜索引擎開(kāi)始紛紛涌現(xiàn),其中以Jump Station、The World Wide Web Worm和Repository-Based Software Engineering(RBSE)spider最負(fù)盛名。
1994年1月,第一個(gè)既可搜索又可瀏覽的分類目錄EINetGalaxy(Tradewave Galaxy)上線。除了網(wǎng)站搜索,它還支持Gopher和Telnet搜索。
1994年初,Washington大學(xué)CS學(xué)生Brian Pinkerton開(kāi)始了他的小項(xiàng)目Web Crawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,Web Crawler正式亮相。
1994年4月,Stanford兩名博士生,美籍華人Jerry Yang(楊致遠(yuǎn))和David Filo共同創(chuàng)辦了Yahoo。隨著訪問(wèn)量和收錄鏈接數(shù)的增長(zhǎng),Yahoo目錄開(kāi)始支持簡(jiǎn)單的數(shù)據(jù)庫(kù)搜索。因?yàn)閅ahoo!的數(shù)據(jù)是手工輸入的,所以不能真正被歸為搜索引擎,事實(shí)上只是一個(gè)可搜索的目錄。
1994年7月,Michael Mauldin將John Leavitt的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的Lycos。1996年底,美國(guó)在線收購(gòu)了Excite20%的股份,美國(guó)在線搜索引擎也自然由Excite提供。
1995年,一種新的搜索引擎形式出現(xiàn)了——元搜索引擎(A Meta Search Engine Roundup)。第一個(gè)元搜索引擎,是Washington大學(xué)碩士生Eric Selberg和Oren Etzioni的Metacrawler。
1995年9月26日,加州伯克利分校CS助教EricBrewer、博士生PaulGauthier創(chuàng)立了Inktomi(UCBerkeley Announces Inktomi),1996年5月20日,Inktomi公司成立,強(qiáng)大的HotBot出現(xiàn)在世人面前。
1995年9月,Northernlight公司于成立于馬薩諸塞州劍橋,1997年8月,Northernlight搜索引擎正式現(xiàn)身。它曾是擁有最大數(shù)據(jù)庫(kù)的搜索引擎之一,它沒(méi)有Stop Words,它有出色的Current News、7,100多出版物組成的Special Collection、良好的高級(jí)搜索語(yǔ)法,第一個(gè)支持對(duì)搜索結(jié)果進(jìn)行簡(jiǎn)單的自動(dòng)分類。
1995年博士生LarryPage開(kāi)始學(xué)習(xí)搜索引擎設(shè)計(jì),于1997年9月15日注冊(cè)了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同參與下,Bach Rub開(kāi)始提供Demo。1999年2月,Google完成了從Alpha版到Beta版的蛻變。Google公司則把1998年9月27日認(rèn)作自己的生日。
1997年,F(xiàn)ast(Alltheweb)公司創(chuàng)立于,是挪威科技大學(xué)(NTNU)學(xué)術(shù)研究的副產(chǎn)品。1999年5月,發(fā)布了自己的搜索引擎AllTheWeb。
1998年,Rutgers大學(xué)的Apostolos Gerasoulis教授帶領(lǐng)華裔TaoYang教授等人創(chuàng)立Teoma于新澤西Piscataway,2001年春初次登場(chǎng),2001年9月被提問(wèn)式搜索引擎Ask Jeeves收購(gòu),2002年4月再次發(fā)布。
1998年1月,Openfind創(chuàng)立,其技術(shù)源自臺(tái)灣中正大學(xué)吳升教授所領(lǐng)導(dǎo)的GAIS實(shí)驗(yàn)室,2002年6月,Openfind重新發(fā)布基于GAIS30Project的Openfind搜索引擎Beta版。
1997年10月29日,北大天網(wǎng)作為國(guó)家"九五"重點(diǎn)科技攻關(guān)項(xiàng)目"中文編碼和分布式中英文信息發(fā)現(xiàn)"的研究成果,由北大計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)研究室開(kāi)發(fā),正式在CERNET上提供服務(wù)。2000年初成立天網(wǎng)搜索引擎新課題組,由國(guó)家973重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃項(xiàng)目基金資助開(kāi)發(fā),收錄網(wǎng)頁(yè)約6000萬(wàn),利用教育網(wǎng)優(yōu)勢(shì),有強(qiáng)大的ftp搜索功能。
2000年1月,超鏈分析專利發(fā)明人、前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士)在北京中關(guān)村創(chuàng)立了百度(Baidu)公司。2001年8月發(fā)布Baidu.com搜索引擎Beta版(此前Baidu只為其它門(mén)戶網(wǎng)站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式發(fā)布Baidu搜索引擎。
2001年春季韓裔Yeogirl Yun創(chuàng)立Wisenut,發(fā)布Beta版,2001年9月5日發(fā)布正式版,2002年4月被分類目錄提供商looksmart收購(gòu)。
2002年5月1日,網(wǎng)絡(luò)帝國(guó)美國(guó)在線(AOL)與Google簽約,全面采用Google的搜索引擎并顯示Google所有賣出的網(wǎng)站排名結(jié)果。
2002年12月24日,雅虎稱公司同意以大約2.35億美元的價(jià)格收購(gòu)搜索軟件公司Inktomi。
2003年1月18日,Google收購(gòu)博客網(wǎng)站Blogger.com開(kāi)發(fā)團(tuán)隊(duì)——網(wǎng)上出版軟件開(kāi)發(fā)商PyraLabs。
2003年2月19日,Overture服務(wù)公司表示,計(jì)劃以1.4億美元現(xiàn)金加股票從CMGI公司手中收購(gòu)門(mén)戶網(wǎng)站AtaVista。
2003年2月26日,Overture同意以1億美元收購(gòu)位于挪威的FastSearchandTransfer公司的網(wǎng)絡(luò)搜索部門(mén)。
2003年4月15日,新浪與中國(guó)搜索聯(lián)盟結(jié)成戰(zhàn)略同盟,至此,中國(guó)已有數(shù)百家網(wǎng)站結(jié)成搜索聯(lián)盟,以迎接國(guó)際巨頭Google挺進(jìn)國(guó)內(nèi)市場(chǎng)后的巨大壓力。
2003年4月21日,第二大互聯(lián)網(wǎng)搜索引擎提供商AskJeeves公司宣布對(duì)其Ask.com網(wǎng)站進(jìn)行升級(jí)。AskJeeves是僅次于Google的第二大搜索引擎,也是互聯(lián)網(wǎng)上第五大搜索基地(Google、雅虎、微軟、AOL、Askjeeves)。
2003年6月18日,微軟公司表示其正在加大研發(fā)新型互聯(lián)網(wǎng)搜索引擎技術(shù)的力度,包括對(duì)一款功能更先進(jìn)的技術(shù)原型進(jìn)行測(cè)試。
2003年7月13日,百度推出圖象搜索,新聞搜索兩大搜索功能,以此來(lái)帶動(dòng)搜索流量。同時(shí),輔以百度的搜索風(fēng)云榜,使得百度的信息搜索及信息評(píng)估的作用更加突出
2003年7月15日,全球最大的互聯(lián)網(wǎng)公司雅虎宣布,以16.3億美元收購(gòu)在網(wǎng)絡(luò)搜索服務(wù)上的競(jìng)爭(zhēng)對(duì)手—Overture公司,以期在同Google的競(jìng)爭(zhēng)中取得優(yōu)勢(shì)。
以上就是關(guān)于谷歌公司大數(shù)據(jù)三大技術(shù)相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
怎么注冊(cè)香港PayPal(怎么注冊(cè)香港谷歌賬號(hào))
如何讓谷歌瀏覽器不升級(jí)(如何讓谷歌瀏覽器不升級(jí)軟件)
10萬(wàn)自動(dòng)擋suv排行榜(十萬(wàn)的自動(dòng)擋suv排行榜)
猜你喜歡
百度莫名其妙出現(xiàn)搜索記錄怎么處理(百度莫名其妙出現(xiàn)搜索記錄怎么處理呢)
網(wǎng)絡(luò)優(yōu)化工程師工作內(nèi)容(網(wǎng)絡(luò)優(yōu)化工程師工作內(nèi)容和職責(zé))
中國(guó)還有未收回的領(lǐng)土么(中國(guó)還有未收回的領(lǐng)土么現(xiàn)在)
朝鮮人類發(fā)展指數(shù)(朝鮮人類發(fā)展指數(shù)為什么這么高)
小紅書(shū)免費(fèi)觀看(小紅書(shū)看書(shū)免費(fèi)嗎)