正文

國(guó)內(nèi)搜索引擎大全（國(guó)內(nèi)搜索引擎大全網(wǎng)站）

發(fā)布時(shí)間：2023-04-08 11:46:29 稿源：創(chuàng)意嶺閱讀： 89

大家好！今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于國(guó)內(nèi)搜索引擎大全的問(wèn)題，以下是小編對(duì)此問(wèn)題的歸納整理，讓我們一起來(lái)看看吧。

開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端

官網(wǎng)：https://ai.de1919.com。

創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè)，服務(wù)客戶遍布全球各地，如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043，或添加微信：1454722008

本文目錄:

1、所有的中文搜索引擎
2、十大搜索引擎是什么
3、目前常用的網(wǎng)絡(luò)搜索引擎有哪些
4、常用的搜索引擎有哪些？

國(guó)內(nèi)搜索引擎大全（國(guó)內(nèi)搜索引擎大全網(wǎng)站）

一、所有的中文搜索引擎

7大中文頂尖搜索引擎排名

百度更新速度慢：也許這就是百度引擎特性中其一的特定特色。門坎貌似挺高，但卻不然，那只是新站沒(méi)有掌握把握好百度關(guān)建詞排名的優(yōu)化特性。

引擎名稱：★★★★

騰訊搜搜更新速度在所有搜索引擎里屬第一，技術(shù)也不賴，頁(yè)面正常清析。因?yàn)楝F(xiàn)代株多網(wǎng)民習(xí)慣性愛(ài)查找查看新出爐的東西，所以騰迅搜搜使用率直升，有望成為中文搜索引擎的第一巨頭。

引擎名稱：★★★

谷歌引擎，搜索技術(shù)渾厚，但因自身服務(wù)器的因素，網(wǎng)民使用指數(shù)會(huì)大跌。

引擎名稱：★★★

搜狗引擎，搜業(yè)的新星，不可渺視，網(wǎng)民使用率在上升。

引擎名稱：★★

雅虎引擎，老網(wǎng)民使用指數(shù)保持原地，新網(wǎng)民使用指數(shù)緩慢。

引擎名稱：★★★★

有道引擎，網(wǎng)民使用指數(shù)在上升，走勢(shì)挺好。

引擎名稱：★★★★

必應(yīng)引擎，網(wǎng)民使用指數(shù)在上升，前景不錯(cuò)。

引擎名稱：★★★★★。

百度搜索將在今后三年內(nèi)處于正常高峰。

騰訊搜搜將在今后三年越過(guò)谷搜，使用走勢(shì)不遜百度。

搜狗，有道，必應(yīng)，步伐也不慢，大有搶頭之勢(shì)。

雅虎好象變老了，反應(yīng)顯得有點(diǎn)遲鈍了。

谷歌，由于自身本來(lái)的技術(shù)廣源。約下滑一個(gè)階位。

常用使用印象排名：

1，百度，2，騰訊搜搜，3，必應(yīng)4，搜狗，5，有道，6，雅虎，7，谷歌。

二、十大搜索引擎是什么

全球十大搜索引擎 Google 全球最大的（機(jī)器）搜索引擎。主要搜索結(jié)果將列入AOL, Netscape, iwon和Go. Google在對(duì)網(wǎng)站進(jìn)行排名時(shí)不僅衡量關(guān)鍵詞與頁(yè)面的匹配度，也考慮外部鏈接。某個(gè)網(wǎng)站擁有越多的外部鏈接，說(shuō)明它越受歡迎。于是，Google將其作主要因素來(lái)考慮，并發(fā)明了PageRank來(lái)專門衡量該外部鏈接。>> Yahoo 世界最早的分類目錄，也是最大的門戶網(wǎng)站。它的搜索結(jié)果最初來(lái)自于Google，后采用Inktomi（已被雅虎收購(gòu)）提供的結(jié)果。Yahoo現(xiàn)在開(kāi)發(fā)了自己的搜索技術(shù)，稱為Yahoo Search Technology (YST)。搜索結(jié)果個(gè)數(shù)與Google相當(dāng)，>> 更多 MSN 錄屬于微軟公司。MSN提供的Hotmail和MSN Message極受歡迎。但MSN沒(méi)有自己的搜索引擎，一直采用其他搜索引擎的結(jié)果。比如，MSN主要搜索結(jié)果來(lái)自于Inktomi，競(jìng)價(jià)廣告原由LookSmart提供，但于2004年初改由Overture提供。 AOL 即美國(guó)在線，是美國(guó)也是世界上最早的門戶網(wǎng)站之一，幾年前已與時(shí)代公司合并，成為美國(guó)在線-時(shí)代華納公司。AOL目前的主營(yíng)業(yè)務(wù)是ISP。其搜索結(jié)果全部來(lái)自于Google 提供。也就是說(shuō)，有良好的Google排名也有良好的AOL排名。 Lycos 西班牙公司，全稱為Terry Lycos，是全世界最早的搜索引擎之一。但目前，Lycos已放棄自己開(kāi)發(fā)的搜索技術(shù)，而主要搜索結(jié)果來(lái)自于Alltheweb。另外，其競(jìng)價(jià)排名結(jié)果來(lái)自于Google的右側(cè)廣告。 Ask Jeeves 規(guī)模不大，但很有特色的搜索搜索。Ask是DirectHit的母公司，于2001年收購(gòu)Teoma搜索引擎，并全部采用其搜索結(jié)果。奇怪的是，Ask的競(jìng)價(jià)排名結(jié)果卻仍然來(lái)自于Google的右側(cè)廣告。 Overture 最早的付費(fèi)搜索引擎（競(jìng)價(jià)排名搜索引擎）。搜索結(jié)果被Yahoo, MSN等采用。Overture收購(gòu)了Google的對(duì)手Inktomi后被Yahoo收購(gòu)，是Google AdWords目前最大的競(jìng)爭(zhēng)對(duì)手。如何在Overture做競(jìng)價(jià)排名廣告 MrDou 即豆子先生公司，MrDou最初被廣大用戶認(rèn)知是因?yàn)樗囊魳?lè)搜索。并全部采用其搜索結(jié)果。有證據(jù)表明，MrDou正在開(kāi)發(fā)一種叫做"MrDou Hot"的自己的搜索引擎 >> AltaVista 全世界最古老的搜索引擎之一，中國(guó)網(wǎng)民很難訪問(wèn)。該搜索引擎已于2003年被Yahoo收購(gòu)。同時(shí)被Yahoo收購(gòu)的還有AllTheWeb。微迪認(rèn)為，AltaVista不久可能銷聲匿跡，因?yàn)閅ahoo并沒(méi)有采用AltaVista、Alltheweb或者Inktomi的搜索結(jié)果，而是重新開(kāi)發(fā)全新的搜索技術(shù)。 Inktomi 不向終端用戶開(kāi)放，只對(duì)搜索引擎提供搜索結(jié)果。于2003年被Overture收購(gòu)（Overture后又被Yahoo收購(gòu)）。在2004年Yahoo開(kāi)發(fā)自己全新的搜索引擎技術(shù)之前，Inktomi還是全球第二大搜索引擎，其搜索結(jié)果被Hotbot, MSN等著名的網(wǎng)站采用。國(guó)內(nèi)十大主流的搜索引擎 1，百度。全球最大的中文搜索引擎。擁有自己的核心技術(shù)--超鏈接分析技術(shù)。通過(guò)分析的鏈接的多少和質(zhì)量來(lái)評(píng)價(jià)被鏈接網(wǎng)站的網(wǎng)站質(zhì)量。這保證了用戶在百度搜索的時(shí)候，越受歡迎的網(wǎng)站排名越前。所以我想讓廣州seo的網(wǎng)站排名好的話，增加多點(diǎn)高質(zhì)量帶網(wǎng)站關(guān)鍵字鏈接："廣州網(wǎng)站優(yōu)化""廣州網(wǎng)站推廣"。作為最大的中文搜索引擎，對(duì)網(wǎng)頁(yè)的收錄數(shù)量，收錄速度，收錄范圍自然最具優(yōu)勢(shì)的。另外遍布全國(guó)各地的服務(wù)器，也能以最快的速度，將用戶所要尋找的信息展示給用戶。另外百度是非常符合中國(guó)人的使用習(xí)慣的。為中文用戶度身定做百度深刻理解中文用戶搜索習(xí)慣，開(kāi)發(fā)出關(guān)鍵詞自動(dòng)提示：用戶輸入拼音，就能獲得中文關(guān)鍵詞正確提示。百度還開(kāi)發(fā)出中文搜索自動(dòng)糾錯(cuò)；如果用戶誤輸入錯(cuò)別字，可以自動(dòng)給出正確關(guān)鍵詞提示。百度還有其它多項(xiàng)體貼普通用戶的功能，包括相關(guān)搜索、中文人名識(shí)別、簡(jiǎn)繁體中文自動(dòng)轉(zhuǎn)換、網(wǎng)頁(yè)預(yù)覽等。百度已增加了專業(yè)的MP3搜索、Flash搜索、新聞搜索、信息快遞搜索，并正在快速發(fā)展其它用戶喜歡的搜索功能。百度搜索引擎，將發(fā)展為最全面的搜索引擎，為所有中文用戶打開(kāi)互聯(lián)網(wǎng)之門。另外 www.xy539.com 的“廣州百度推廣”排名還不錯(cuò)。 2、谷歌。谷歌雖然已經(jīng)推出中國(guó)大陸，但是還是有一定數(shù)量的用戶。這里只是提一句，谷歌自創(chuàng)的“pagerank”技術(shù)目前認(rèn)識(shí)很多站長(zhǎng)評(píng)價(jià)網(wǎng)站的一種重要標(biāo)準(zhǔn)，雖然有傳言說(shuō)谷歌要取消pr值。 3、中國(guó)雅虎。中國(guó)雅虎開(kāi)創(chuàng)性地將全球領(lǐng)先的互聯(lián)網(wǎng)技術(shù)與中國(guó)本地運(yùn)營(yíng)相結(jié)合，成為中國(guó)互聯(lián)網(wǎng)界位居前列的搜索引擎社區(qū)與資訊服務(wù)提供商。中國(guó)雅虎一直致力于以創(chuàng)新、人性、全面的網(wǎng)絡(luò)應(yīng)用，為億萬(wàn)中文用戶帶來(lái)最大價(jià)值的生活體驗(yàn)，成為中國(guó)互聯(lián)網(wǎng)的“生活引擎”。 4、搜狗。搜狗搜索是由國(guó)內(nèi)著名的門戶網(wǎng)站搜狐SOHU.COM運(yùn)作的，搜狐是國(guó)內(nèi)最早提供搜索服務(wù)的站點(diǎn)?；ヂ?lián)網(wǎng)概念在國(guó)內(nèi)的普及，搜狐功不可沒(méi)。在2001年年初由CNAZ（中文網(wǎng)站評(píng)估認(rèn)證網(wǎng)）舉辦的搜索引擎網(wǎng)絡(luò)專項(xiàng)功能排名調(diào)查中，搜狐名列第一。搜狗設(shè)有獨(dú)立的目錄索引，并采用百度搜索引擎技術(shù)，提供網(wǎng)站、網(wǎng)頁(yè)、類目、新聞、黃頁(yè)、中文網(wǎng)址、軟件等多項(xiàng)搜索選擇。搜狐搜索范圍以中文網(wǎng)站為主，支持中文域名。 5、中搜。中國(guó)搜索聯(lián)盟成立于2002年9月，由中國(guó)互聯(lián)網(wǎng)新聞中心、慧聰國(guó)際共同發(fā)起的一個(gè)以搜索引擎應(yīng)用為核心的開(kāi)放型聯(lián)合體，聯(lián)盟號(hào)召各成員網(wǎng)站使用共同的搜索引擎，通過(guò)搜索引擎技術(shù)應(yīng)用尋求共同有效的經(jīng)營(yíng)模式，整合優(yōu)勢(shì)資源真正實(shí)現(xiàn)資源共通共享，進(jìn)而推動(dòng)各成員的網(wǎng)站發(fā)展。 6、騰訊搜搜。搜搜的主要優(yōu)勢(shì)在于他有龐大的即時(shí)通訊客戶，可以用qq號(hào)碼直接登錄搜搜進(jìn)行問(wèn)答等一些列活動(dòng)，所以搜搜推出之始就有1.5億用戶了。另外搜搜更加注重年輕網(wǎng)民的需要。 7、有道搜索。自2007年7月，網(wǎng)易搜索正式由網(wǎng)易自主研發(fā)的“有道搜索”提供服務(wù)，希望提供給用戶更多樣的產(chǎn)品，更創(chuàng)新的體驗(yàn)，更優(yōu)質(zhì)的服務(wù)。 8、新浪愛(ài)問(wèn)?！皭?ài)問(wèn)iAsk”是新浪完全自主研發(fā)的搜索產(chǎn)品，采用了目前最為領(lǐng)先的智慧型互動(dòng)搜索技術(shù)，充分體現(xiàn)人性化應(yīng)用的產(chǎn)品理念，為廣大網(wǎng)民提供全新搜索服務(wù)。作為首個(gè)中文智慧型互動(dòng)搜索引擎，“愛(ài)問(wèn)”突破了由GOOGLE、百度為代表的算法致勝的搜索模式。 9、bing，中文反映“必應(yīng)”，有求必應(yīng)之意。2009年正式在中國(guó)開(kāi)放。是微軟取代live search的搜索引擎。 10、tom搜索引擎，主要提供網(wǎng)頁(yè)，網(wǎng)站，圖片，mp3，新聞搜索，以及其他網(wǎng)頁(yè)的搜索服務(wù)。

三、目前常用的網(wǎng)絡(luò)搜索引擎有哪些

1、百度搜索

百度搜索是2000年1月由李彥宏、徐勇兩人創(chuàng)立于北京中關(guān)村，致力于向人們提供“簡(jiǎn)單，可依賴”的信息獲取方式。 “百度”二字源于中國(guó)宋朝詞人辛棄疾的《青玉案》詩(shī)句：“眾里尋他千百度”，象征著百度對(duì)中文信息檢索技術(shù)的執(zhí)著追求。

國(guó)內(nèi)搜索引擎大全（國(guó)內(nèi)搜索引擎大全網(wǎng)站）

2、360綜合搜索

屬于元搜索引擎，是通過(guò)一個(gè)統(tǒng)一的用戶界面幫助用戶在多個(gè)搜索引擎中選擇和利用合適的搜索引擎來(lái)實(shí)現(xiàn)檢索操作，是對(duì)分布于網(wǎng)絡(luò)的多種檢索工具的全局控制機(jī)制。而360搜索+，屬于全文搜索引擎，是奇虎360公司開(kāi)發(fā)的基于機(jī)器學(xué)習(xí)技術(shù)的第三代搜索引擎，具備“自學(xué)習(xí)、自進(jìn)化”能力和發(fā)現(xiàn)用戶最需要的搜索結(jié)果。

3、搜狗搜索引擎

是搜狐公司強(qiáng)力打造的第三代互動(dòng)式搜索引擎，憑借搜狐公司強(qiáng)大的技術(shù)實(shí)力，“搜狗”搜索引擎將使您的網(wǎng)站用戶不離開(kāi)您的網(wǎng)站就可以體驗(yàn)到一流的全球互聯(lián)網(wǎng)搜索結(jié)果，借助智能的“搜狗”搜索找到他們真正需要的信息。

4、中國(guó)搜索引擎

是盤古搜索和即刻搜索合并而成，是“搜索國(guó)家隊(duì)”重新整合后新推出的產(chǎn)品，和普通商業(yè)搜索相比增加國(guó)情、理論等垂直搜索內(nèi)容。

5、網(wǎng)易搜索引擎

2000年9月，網(wǎng)易正式推出了全中文搜索引擎服務(wù)，并擁有國(guó)內(nèi)唯一的互動(dòng)型開(kāi)放式目錄管理系統(tǒng)（ODP）。2004年6月底，網(wǎng)易搜索和全球領(lǐng)先的搜索技術(shù)提供商Google簽訂戰(zhàn)略合作協(xié)議，成為當(dāng)時(shí)國(guó)內(nèi)唯一采用Google網(wǎng)頁(yè)搜索技術(shù)的門戶網(wǎng)站。

四、常用的搜索引擎有哪些？

索引擎（search engines）是對(duì)互聯(lián)網(wǎng)上的信息資源進(jìn)行搜集整理，然后供你查詢的系統(tǒng)，它包括信息搜集、信息整理和用戶查詢?nèi)糠帧? 搜索引擎是一個(gè)為你提供信息“檢索”服務(wù)的網(wǎng)站，它使用某些程序把因特網(wǎng)上的所有信息歸類以幫助人們?cè)诿Ｃ＞W(wǎng)海中搜尋到所需要的信息。早期的搜索引擎是把因特網(wǎng)中的資源服務(wù)器的地址收集起來(lái)，由其提供的資源的類型不同而分成不同的目錄，再一層層地進(jìn)行分類。人們要找自己想要的信息可按他們的分類一層層進(jìn)入，就能最后到達(dá)目的地，找到自己想要的信息。這其實(shí)是最原始的方式，只適用于因特網(wǎng)信息并不多的時(shí)候。隨著因特網(wǎng)信息按幾何式增長(zhǎng)，出現(xiàn)了真正意義上的搜索引擎，這些搜索引擎知道網(wǎng)站上每一頁(yè)的開(kāi)始，隨后搜索因特網(wǎng)上的所有超級(jí)鏈接，把代表超級(jí)鏈接的所有詞匯放入一個(gè)數(shù)據(jù)庫(kù)。這就是現(xiàn)在搜索引擎的原型。隨著yahoo!的出現(xiàn)，搜索引擎的發(fā)展也進(jìn)入了黃金時(shí)代，相比以前其性能更加優(yōu)越。現(xiàn)在的搜索引擎已經(jīng)不只是單純的搜索網(wǎng)頁(yè)的信息了，它們已經(jīng)變得更加綜合化，完美化了。以搜索引擎權(quán)威yahoo!為例，從1995年3月由美籍華裔楊致遠(yuǎn)等人創(chuàng)辦yahoo!開(kāi)始，到現(xiàn)在，他們從一個(gè)單一的搜索引擎發(fā)展到現(xiàn)在有電子商務(wù)、新聞信息服務(wù)、個(gè)人免費(fèi)電子信箱服務(wù)等多種網(wǎng)絡(luò)服務(wù)，充分說(shuō)明了搜索引擎的發(fā)展從單一到綜合的過(guò)程。然而由于搜索引擎的工作方式和因特網(wǎng)的快速發(fā)展，使其搜索的結(jié)果讓人越來(lái)越不滿意。例如，搜索“電腦”這個(gè)詞匯，就可能有數(shù)百萬(wàn)頁(yè)的結(jié)果。這是由于搜索引擎通過(guò)對(duì)網(wǎng)站的相關(guān)性來(lái)優(yōu)化搜索結(jié)果，這種相關(guān)性又是由關(guān)鍵字在網(wǎng)站的位置、網(wǎng)站的名稱、標(biāo)簽等公式來(lái)決定的。這就是使搜索引擎搜索結(jié)果多而雜的原因。而搜索引擎中的數(shù)據(jù)庫(kù)因?yàn)橐蛱鼐W(wǎng)的發(fā)展變化也必然包含了死鏈接。這篇文章中，我們介紹了google，它是一個(gè)大型的搜索引擎（of a large-scale search engine）的原型，搜索引擎在超文本中應(yīng)用廣泛。Google的設(shè)計(jì)能夠高效地抓網(wǎng)頁(yè)并建立索引，它的查詢結(jié)果比其它現(xiàn)有系統(tǒng)都高明。這個(gè)原型的全文和超連接的數(shù)據(jù)庫(kù)至少包含24‘000‘000個(gè)網(wǎng)頁(yè)。我們可以從http://google.stanford.edu/ 下載。設(shè)計(jì)搜索引擎是一項(xiàng)富有挑戰(zhàn)性的工作。搜索引擎為上億個(gè)網(wǎng)頁(yè)建立索引，其中包含大量迥然不同的詞匯。而且每天要回答成千上萬(wàn)個(gè)查詢。在網(wǎng)絡(luò)中，盡管大型搜索引擎非常重要，但是學(xué)術(shù)界卻很少研究它。此外由于技術(shù)的快速發(fā)展和網(wǎng)頁(yè)的大量增加，現(xiàn)在建立一個(gè)搜索引擎和三年前完全不同。本文詳細(xì)介紹了我們的大型搜索引擎，據(jù)我們所知，在公開(kāi)發(fā)表的論文中，這是第一篇描述地如此詳細(xì)。除了把傳統(tǒng)數(shù)據(jù)搜索技術(shù)應(yīng)用到如此大量級(jí)網(wǎng)頁(yè)中所遇到的問(wèn)題，還有許多新的技術(shù)挑戰(zhàn)，包括應(yīng)用超文本中的附加信息改進(jìn)搜索結(jié)果。本文將解決這個(gè)問(wèn)題，描述如何運(yùn)用超文本中的附加信息，建立一個(gè)大型實(shí)用系統(tǒng)。任何人都可以在網(wǎng)上隨意發(fā)布信息，如何有效地處理這些無(wú)組織的超文本集合，也是本文要關(guān)注的問(wèn)題。關(guān)鍵詞 World Wide Web，搜索引擎，信息檢索，PageRank, Google 1 緒論 Web 給信息檢索帶來(lái)了新的挑戰(zhàn)。Web上的信息量快速增長(zhǎng)，同時(shí)不斷有毫無(wú)經(jīng)驗(yàn)的新用戶來(lái)體驗(yàn)Web這門藝術(shù)。人們喜歡用超級(jí)鏈接來(lái)網(wǎng)上沖浪，通常都以象Yahoo這樣重要的網(wǎng)頁(yè)或搜索引擎開(kāi)始。大家認(rèn)為L(zhǎng)ist(目錄)有效地包含了大家感興趣的主題，但是它具有主觀性，建立和維護(hù)的代價(jià)高，升級(jí)慢，不能包括所有深?yuàn)W的主題。基于關(guān)鍵詞的自動(dòng)搜索引擎通常返回太多的低質(zhì)量的匹配。使問(wèn)題更遭的是，一些廣告為了贏得人們的關(guān)注想方設(shè)法誤導(dǎo)自動(dòng)搜索引擎。我們建立了一個(gè)大型搜索引擎解決了現(xiàn)有系統(tǒng)中的很多問(wèn)題。應(yīng)用超文本結(jié)構(gòu)，大大提高了查詢質(zhì)量。我們的系統(tǒng)命名為google，取名自googol的通俗拼法，即10的100次方，這和我們的目標(biāo)建立一個(gè)大型搜索引擎不謀而合。 1.1網(wǎng)絡(luò)搜索引擎—升級(jí)換代（scaling up）：1994-2000 搜索引擎技術(shù)不得不快速升級(jí)（scale dramatically）跟上成倍增長(zhǎng)的web數(shù)量。1994年，第一個(gè)Web搜索引擎，World Wide Web Worm(WWWW)可以檢索到110，000個(gè)網(wǎng)頁(yè)和Web的文件。到1994年11月，頂級(jí)的搜索引擎聲稱可以檢索到2‘000’000（WebCrawler）至100‘000’000個(gè)網(wǎng)絡(luò)文件（來(lái)自 Search Engine Watch）。可以預(yù)見(jiàn)到2000年，可檢索到的網(wǎng)頁(yè)將超過(guò)1‘000’000‘000。同時(shí)，搜索引擎的訪問(wèn)量也會(huì)以驚人的速度增長(zhǎng)。在1997年的三四月份，World Wide Web Worm 平均每天收到1500個(gè)查詢。在1997年11月，Altavista 聲稱它每天要處理大約20’000’000個(gè)查詢。隨著網(wǎng)絡(luò)用戶的增長(zhǎng)，到2000年，自動(dòng)搜索引擎每天將處理上億個(gè)查詢。我們系統(tǒng)的設(shè)計(jì)目標(biāo)要解決許多問(wèn)題，包括質(zhì)量和可升級(jí)性，引入升級(jí)搜索引擎技術(shù)（scaling search engine technology），把它升級(jí)到如此大量的數(shù)據(jù)上。 1.2 Google：跟上Web的步伐（Scaling with the Web）建立一個(gè)能夠和當(dāng)今web規(guī)模相適應(yīng)的搜索引擎會(huì)面臨許多挑戰(zhàn)。抓網(wǎng)頁(yè)技術(shù)必須足夠快，才能跟上網(wǎng)頁(yè)變化的速度（keep them up to date）。存儲(chǔ)索引和文檔的空間必須足夠大。索引系統(tǒng)必須能夠有效地處理上千億的數(shù)據(jù)。處理查詢必須快，達(dá)到每秒能處理成百上千個(gè)查詢（hundreds to thousands per second.）。隨著Web的不斷增長(zhǎng)，這些任務(wù)變得越來(lái)越艱巨。然而硬件的執(zhí)行效率和成本也在快速增長(zhǎng)，可以部分抵消這些困難。還有幾個(gè)值得注意的因素，如磁盤的尋道時(shí)間（disk seek time），操作系統(tǒng)的效率（operating system robustness）。在設(shè)計(jì)Google的過(guò)程中，我們既考慮了Web的增長(zhǎng)速度，又考慮了技術(shù)的更新。Google的設(shè)計(jì)能夠很好的升級(jí)處理海量數(shù)據(jù)集。它能夠有效地利用存儲(chǔ)空間來(lái)存儲(chǔ)索引。優(yōu)化的數(shù)據(jù)結(jié)構(gòu)能夠快速有效地存取（參考4.2節(jié)）。進(jìn)一步，我們希望，相對(duì)于所抓取的文本文件和HTML網(wǎng)頁(yè)的數(shù)量而言，存儲(chǔ)和建立索引的代價(jià)盡可能的?。▍⒖几戒汢）。對(duì)于象Google這樣的集中式系統(tǒng)，采取這些措施得到了令人滿意的系統(tǒng)可升級(jí)性（scaling properties）。 1. 3設(shè)計(jì)目標(biāo) 1.3.1提高搜索質(zhì)量我們的主要目標(biāo)是提高Web搜索引擎的質(zhì)量。1994年，有人認(rèn)為建立全搜索索引（a complete search index）可以使查找任何數(shù)據(jù)都變得容易。根據(jù)Best of the Web 1994 -- Navigators ，“最好的導(dǎo)航服務(wù)可以使在Web上搜索任何信息都很容易（當(dāng)時(shí)所有的數(shù)據(jù)都可以被登錄）”。然而1997年的Web就迥然不同。近來(lái)搜索引擎的用戶已經(jīng)證實(shí)索引的完整性不是評(píng)價(jià)搜索質(zhì)量的唯一標(biāo)準(zhǔn)。用戶感興趣的搜索結(jié)果往往湮沒(méi)在“垃圾結(jié)果Junk result”中。實(shí)際上，到1997年11月為止，四大商業(yè)搜索引擎中只有一個(gè)能夠找到它自己（搜索自己名字時(shí)返回的前十個(gè)結(jié)果中有它自己）。導(dǎo)致這一問(wèn)題的主要原因是文檔的索引數(shù)目增加了好幾個(gè)數(shù)量級(jí)，但是用戶能夠看的文檔數(shù)卻沒(méi)有增加。用戶仍然只希望看前面幾十個(gè)搜索結(jié)果。因此，當(dāng)集合增大時(shí)，我們就需要工具使結(jié)果精確（在返回的前幾十個(gè)結(jié)果中，有關(guān)文檔的數(shù)量）。由于是從成千上萬(wàn)個(gè)有點(diǎn)相關(guān)的文檔中選出幾十個(gè)，實(shí)際上，相關(guān)的概念就是指最好的文檔。高精確非常重要，甚至以響應(yīng)（系統(tǒng)能夠返回的有關(guān)文檔的總數(shù)）為代價(jià)。令人高興的是利用超文本鏈接提供的信息有助于改進(jìn)搜索和其它應(yīng)用。尤其是鏈接結(jié)構(gòu)和鏈接文本，為相關(guān)性的判斷和高質(zhì)量的過(guò)濾提供了大量的信息。Google既利用了鏈接結(jié)構(gòu)又用到了anchor文本（見(jiàn)2.1和2.2節(jié)）。 1.3.2搜索引擎的學(xué)術(shù)研究隨著時(shí)間的流逝，除了發(fā)展迅速，Web越來(lái)越商業(yè)化。1993年，只有1.5%的Web服務(wù)是來(lái)自.com域名。到1997年，超過(guò)了60%。同時(shí)，搜索引擎從學(xué)術(shù)領(lǐng)域走進(jìn)商業(yè)。到現(xiàn)在大多數(shù)搜索引擎被公司所有，很少技公開(kāi)術(shù)細(xì)節(jié)。這就導(dǎo)致搜索引擎技術(shù)很大程度上仍然是暗箱操作，并傾向做廣告（見(jiàn)附錄A）。Google的主要目標(biāo)是推動(dòng)學(xué)術(shù)領(lǐng)域在此方面的發(fā)展，和對(duì)它的了解。另一個(gè)設(shè)計(jì)目標(biāo)是給大家一個(gè)實(shí)用的系統(tǒng)。應(yīng)用對(duì)我們來(lái)說(shuō)非常重要，因?yàn)楝F(xiàn)代網(wǎng)絡(luò)系統(tǒng)中存在大量的有用數(shù)據(jù)（us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems）。例如，每天有幾千萬(wàn)個(gè)研究。然而，得到這些數(shù)據(jù)卻非常困難，主要因?yàn)樗鼈儧](méi)有商業(yè)價(jià)值。我們最后的設(shè)計(jì)目標(biāo)是建立一個(gè)體系結(jié)構(gòu)能夠支持新的關(guān)于海量Web數(shù)據(jù)的研究。為了支持新研究，Google以壓縮的形式保存了實(shí)際所抓到的文檔。設(shè)計(jì)google的目標(biāo)之一就是要建立一個(gè)環(huán)境使其他研究者能夠很快進(jìn)入這個(gè)領(lǐng)域，處理海量Web數(shù)據(jù)，得到滿意的結(jié)果，而通過(guò)其它方法卻很難得到結(jié)果。系統(tǒng)在短時(shí)間內(nèi)被建立起來(lái)，已經(jīng)有幾篇論文用到了Google建的數(shù)據(jù)庫(kù)，更多的在起步中。我們的另一個(gè)目標(biāo)是建立一個(gè)宇宙空間實(shí)驗(yàn)室似的環(huán)境，在這里研究者甚至學(xué)生都可以對(duì)我們的海量Web數(shù)據(jù)設(shè)計(jì)或做一些實(shí)驗(yàn)。 2. 系統(tǒng)特點(diǎn) Google搜索引擎有兩個(gè)重要特點(diǎn)，有助于得到高精度的搜索結(jié)果。第一點(diǎn)，應(yīng)用Web的鏈接結(jié)構(gòu)計(jì)算每個(gè)網(wǎng)頁(yè)的Rank值，稱為PageRank，將在98頁(yè)詳細(xì)描述它。第二點(diǎn)，Google利用超鏈接改進(jìn)搜索結(jié)果。 2.1 PageRank:給網(wǎng)頁(yè)排序 Web的引用（鏈接）圖是重要的資源，卻被當(dāng)今的搜索引擎很大程度上忽視了。我們建立了一個(gè)包含518‘000’000個(gè)超鏈接的圖，它是一個(gè)具有重要意義的樣本。這些圖能夠快速地計(jì)算網(wǎng)頁(yè)的PageRank值，它是一個(gè)客觀的標(biāo)準(zhǔn)，較好的符合人們心目中對(duì)一個(gè)網(wǎng)頁(yè)重要程度的評(píng)價(jià)，建立的基礎(chǔ)是通過(guò)引用判斷重要性。因此在web中，PageRank能夠優(yōu)化關(guān)鍵詞查詢的結(jié)果。對(duì)于大多數(shù)的主題，在網(wǎng)頁(yè)標(biāo)題查詢中用PageRank優(yōu)化簡(jiǎn)單文本匹配，我們得到了令人驚嘆的結(jié)果（從google.stanford.edu可以得到演示）。對(duì)于Google主系統(tǒng)中的全文搜索，PageRank也幫了不少忙。 2.1.1計(jì)算PageRank 文獻(xiàn)檢索中的引用理論用到Web中，引用網(wǎng)頁(yè)的鏈接數(shù)，一定程度上反映了該網(wǎng)頁(yè)的重要性和質(zhì)量。PageRank發(fā)展了這種思想，網(wǎng)頁(yè)間的鏈接是不平等的。 PageRank定義如下: 我們假設(shè)T1…Tn指向網(wǎng)頁(yè)A（例如，被引用）。參數(shù)d是制動(dòng)因子，使結(jié)果在0，1之間。通常d等于0.85。在下一節(jié)將詳細(xì)介紹d。C（A）定義為網(wǎng)頁(yè)A指向其它網(wǎng)頁(yè)的鏈接數(shù)，網(wǎng)頁(yè)A的PageRank值由下式給出： PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式，分布到各個(gè)網(wǎng)頁(yè)中，因此所有網(wǎng)頁(yè)的PageRank和是1。 PageRank或PR（A）可以用簡(jiǎn)單的迭代算法計(jì)算，相應(yīng)規(guī)格化Web鏈接矩陣的主特征向量。中等規(guī)模的網(wǎng)站計(jì)算26‘000’000網(wǎng)頁(yè)的PageRank值要花費(fèi)幾小時(shí)。還有一些技術(shù)細(xì)節(jié)超出了本文論述的范圍。 2.1.2直覺(jué)判斷 PageRank被看作用戶行為的模型。我們假設(shè)網(wǎng)上沖浪是隨機(jī)的，不斷點(diǎn)擊鏈接，從不返回，最終煩了，另外隨機(jī)選一個(gè)網(wǎng)頁(yè)重新開(kāi)始沖浪。隨機(jī)訪問(wèn)一個(gè)網(wǎng)頁(yè)的可能性就是它的PageRank值。制動(dòng)因子d是隨機(jī)訪問(wèn)一個(gè)網(wǎng)頁(yè)煩了的可能性，隨機(jī)另選一個(gè)網(wǎng)頁(yè)。對(duì)單個(gè)網(wǎng)頁(yè)或一組網(wǎng)頁(yè)，一個(gè)重要的變量加入到制動(dòng)因子d中。這允許個(gè)人可以故意地誤導(dǎo)系統(tǒng)，以得到較高的PageRank值。我們還有其它的PageRank算法，見(jiàn)98頁(yè)。另外的直覺(jué)判斷是一個(gè)網(wǎng)頁(yè)有很多網(wǎng)頁(yè)指向它，或者一些PageRank值高的網(wǎng)頁(yè)指向它，則這個(gè)網(wǎng)頁(yè)很重要。直覺(jué)地，在Web中，一個(gè)網(wǎng)頁(yè)被很多網(wǎng)頁(yè)引用，那么這個(gè)網(wǎng)頁(yè)值得一看。一個(gè)網(wǎng)頁(yè)被象Yahoo這樣重要的主頁(yè)引用即使一次，也值得一看。如果一個(gè)網(wǎng)頁(yè)的質(zhì)量不高，或者是死鏈接，象Yahoo這樣的主頁(yè)不會(huì)鏈向它。PageRank處理了這兩方面因素，并通過(guò)網(wǎng)絡(luò)鏈接遞歸地傳遞。 & nbsp; 2.2鏈接描述文字（Anchor Text）我們的搜索引擎對(duì)鏈接文本進(jìn)行了特殊的處理。大多數(shù)搜索引擎把鏈接文字和它所鏈向的網(wǎng)頁(yè)（the page that the link is on）聯(lián)系起來(lái)。另外，把它和鏈接所指向的網(wǎng)頁(yè)聯(lián)系起來(lái)。這有幾點(diǎn)好處。第一，通常鏈接描述文字比網(wǎng)頁(yè)本身更精確地描述該網(wǎng)頁(yè)。第二，鏈接描述文字可能鏈向的文檔不能被文本搜索引擎檢索到，例如圖像，程序和數(shù)據(jù)庫(kù)。有可能使返回的網(wǎng)頁(yè)不能被抓到。注意哪些抓不到的網(wǎng)頁(yè)將會(huì)帶來(lái)一些問(wèn)題。在返回給用戶前檢測(cè)不了它們的有效性。這種情況搜索引擎可能返回一個(gè)根本不存在的網(wǎng)頁(yè)，但是有超級(jí)鏈接指向它。然而這種結(jié)果可以被挑出來(lái)的，所以此類的問(wèn)題很少發(fā)生。鏈接描述文字是對(duì)被鏈向網(wǎng)頁(yè)的宣傳，這個(gè)思想被用在World Wide Web Worm 中，主要因?yàn)樗兄谒阉鞣俏谋拘畔ⅲ軌蛴蒙倭康囊严螺d文檔擴(kuò)大搜索范圍。我們大量應(yīng)用鏈接描述文字，因?yàn)樗兄谔岣咚阉鹘Y(jié)果的質(zhì)量。有效地利用鏈接描述文字技術(shù)上存在一些困難，因?yàn)楸仨毺幚泶罅康臄?shù)據(jù)?，F(xiàn)在我們能抓到24‘000’000個(gè)網(wǎng)頁(yè)，已經(jīng)檢索到259‘000’000多個(gè)鏈接描述文字。 2.3其它特點(diǎn)除了PageRank和應(yīng)用鏈接描述文字外，Google還有一些其它特點(diǎn)。第一,所有hit都有位置信息，所以它可以在搜索中廣泛應(yīng)用鄰近性（proximity）。第二，Google跟蹤一些可視化外表細(xì)節(jié)，例如字號(hào)。黑體大號(hào)字比其它文字更重要。第三，知識(shí)庫(kù)存儲(chǔ)了原始的全文html網(wǎng)頁(yè)。 3有關(guān)工作 Web檢索研究的歷史簡(jiǎn)短。World Wide Web Worm（）是最早的搜索引擎之一。后來(lái)出現(xiàn)了一些用于學(xué)術(shù)研究的搜索引擎，現(xiàn)在它們中的大多數(shù)被上市公司擁有。與Web的增長(zhǎng)和搜索引擎的重要性相比，有關(guān)當(dāng)今搜索引擎技術(shù)的優(yōu)秀論文相當(dāng)少。根據(jù)Michael Mauldin（Lycos Inc的首席科學(xué)家）) ，“各種各樣的服務(wù)（包括Lycos）非常關(guān)注這些數(shù)據(jù)庫(kù)的細(xì)節(jié)?！彪m然在搜索引擎的某些特點(diǎn)上做了大量工作。具有代表性的工作有，對(duì)現(xiàn)有商業(yè)搜索引擎的結(jié)果進(jìn)行傳遞，或建立小型的個(gè)性化的搜索引擎。最后有關(guān)信息檢索系統(tǒng)的研究很多，尤其在有組織機(jī)構(gòu)集合（well controlled collections）方面。在下面兩節(jié)，我們將討論在信息檢索系統(tǒng)中的哪些領(lǐng)域需要改進(jìn)以便更好的工作在Web上。 3.1信息檢索信息檢索系統(tǒng)誕生在幾年前，并發(fā)展迅速。然而大多數(shù)信息檢索系統(tǒng)研究的對(duì)象是小規(guī)模的單一的有組織結(jié)構(gòu)的集合，例如科學(xué)論文集，或相關(guān)主題的新聞故事。實(shí)際上，信息檢索的主要基準(zhǔn)，the Text Retrieval Conference（），用小規(guī)模的、有組織結(jié)構(gòu)的集合作為它們的基準(zhǔn)。大型文集基準(zhǔn)只有20GB，相比之下，我們抓到的24000000個(gè)網(wǎng)頁(yè)占147GB。在TREC上工作良好的系統(tǒng)，在Web上卻不一定產(chǎn)生好的結(jié)果。例如，標(biāo)準(zhǔn)向量空間模型企圖返回和查詢請(qǐng)求最相近的文檔，把查詢請(qǐng)求和文檔都看作由出現(xiàn)在它們中的詞匯組成的向量。在Web環(huán)境下，這種策略常常返回非常短的文檔，這些文檔往往是查詢?cè)~再加幾個(gè)字。例如，查詢“Bill Clinton”，返回的網(wǎng)頁(yè)只包含“Bill Clinton Sucks”，這是我們從一個(gè)主要搜索引擎中看到的。網(wǎng)絡(luò)上有些爭(zhēng)議，用戶應(yīng)該更準(zhǔn)確地表達(dá)他們想查詢什么，在他們的查詢請(qǐng)求中用更多的詞。我們強(qiáng)烈反對(duì)這種觀點(diǎn)。如果用戶提出象“Bill Clinton”這樣的查詢請(qǐng)求，應(yīng)該得到理想的查詢結(jié)果，因?yàn)檫@個(gè)主題有許多高質(zhì)量的信息。象所給的例子，我們認(rèn)為信息檢索標(biāo)準(zhǔn)需要發(fā)展，以便有效地處理Web數(shù)據(jù)。 3.2有組織結(jié)構(gòu)的集合（Well Controlled Collections）與Web的不同點(diǎn) Web是完全無(wú)組織的異構(gòu)的大量文檔的集合。Web中的文檔無(wú)論內(nèi)在信息還是隱含信息都存在大量的異構(gòu)性。例如，文檔內(nèi)部就用了不同的語(yǔ)言（既有人類語(yǔ)言又有程序），詞匯（[email]地址，鏈接，郵政編碼，電話號(hào)碼，產(chǎn)品號(hào)），類型（文本，HTML，PDF，圖像，聲音），有些甚至是機(jī)器創(chuàng)建的文件（log文件，或數(shù)據(jù)庫(kù)的輸出）?？梢詮奈臋n中推斷出來(lái)，但并不包含在文檔中的信息稱為隱含信息。隱含信息包括來(lái)源的信譽(yù)，更新頻率，質(zhì)量，訪問(wèn)量和引用。不但隱含信息的可能來(lái)源各種各樣，而且被檢測(cè)的信息也大不相同，相差可達(dá)好幾個(gè)數(shù)量級(jí)。例如，一個(gè)重要主頁(yè)的使用量，象Yahoo 每天瀏覽數(shù)達(dá)到上百萬(wàn)次，于此相比無(wú)名的歷史文章可能十年才被訪問(wèn)一次。很明顯，搜索引擎對(duì)這兩類信息的處理是不同的。 Web與有組織結(jié)構(gòu)集合之間的另外一個(gè)明顯區(qū)別是，事實(shí)上，向Web上傳信息沒(méi)有任何限制。靈活利用這點(diǎn)可以發(fā)布任何對(duì)搜索引擎影響重大的信息，使路由阻塞，加上為牟利故意操縱搜索引擎，這些已經(jīng)成為一個(gè)嚴(yán)重的問(wèn)題。這些問(wèn)題還沒(méi)有被傳統(tǒng)的封閉的信息檢索系統(tǒng)所提出來(lái)。它關(guān)心的是元數(shù)據(jù)的努力，這在Web搜索引擎中卻不適用，因?yàn)榫W(wǎng)頁(yè)中的任何文本都不會(huì)向用戶聲稱企圖操縱搜索引擎。甚至有些公司為牟利專門操縱搜索引擎。 4 系統(tǒng)分析（System Anatomy）首先，我們提供高水平的有關(guān)體系結(jié)構(gòu)的討論。然后，詳細(xì)描述重要的數(shù)據(jù)結(jié)構(gòu)。最后，主要應(yīng)用：抓網(wǎng)頁(yè)，索引，搜索將被嚴(yán)格地檢查。 Figure 1. High Level Google Architecture 4.1Google體系結(jié)構(gòu)概述這一節(jié)，我們將看看整個(gè)系統(tǒng)是如何工作的（give a high level），見(jiàn)圖1。本節(jié)不討論應(yīng)用和數(shù)據(jù)結(jié)構(gòu)，在后幾節(jié)中討論。為了效率大部分Google是用c或c++實(shí)現(xiàn)的，既可以在Solaris也可以在Linux上運(yùn)行。 Google系統(tǒng)中，抓網(wǎng)頁(yè)（下載網(wǎng)頁(yè)）是由幾個(gè)分布式crawlers完成的。一個(gè)URL服務(wù)器負(fù)責(zé)向crawlers提供URL列表。抓來(lái)的網(wǎng)頁(yè)交給存儲(chǔ)服務(wù)器storeserver。然后，由存儲(chǔ)服務(wù)器壓縮網(wǎng)頁(yè)并把它們存到知識(shí)庫(kù)repository中。每個(gè)網(wǎng)頁(yè)都有一個(gè)ID，稱作docID，當(dāng)新URL從網(wǎng)頁(yè)中分析出時(shí)，就被分配一個(gè)docID。由索引器和排序器負(fù)責(zé)建立索引index function。索引器從知識(shí)庫(kù)中讀取文檔，對(duì)其解壓縮和分析。每個(gè)文檔被轉(zhuǎn)換成一組詞的出現(xiàn)情況，稱作命中hits。Hits紀(jì)錄了詞，詞在文檔中的位置，最接近的字號(hào)，大小寫。索引器把這些hits分配到一組桶barrel中，產(chǎn)生經(jīng)過(guò)部分排序后的索引。索引器的另一個(gè)重要功能是分析網(wǎng)頁(yè)中所有的鏈接，將有關(guān)的重要信息存在鏈接描述anchors文件中。該文件包含了足夠的信息，可以用來(lái)判斷每個(gè)鏈接鏈出鏈入節(jié)點(diǎn)的信息，和鏈接文本。 URL分解器resolver閱讀鏈接描述anchors文件，并把相對(duì)URL轉(zhuǎn)換成絕對(duì)URL，再轉(zhuǎn)換成docID。為鏈接描述文本編制索引，并與它所指向的docID關(guān)聯(lián)起來(lái)。同時(shí)建立由docID對(duì)組成的鏈接數(shù)據(jù)庫(kù)。用于計(jì)算所有文檔的PageRank值。用docID分類后的barrels，送給排序器sorter，再根據(jù)wordID進(jìn)行分類，建立反向索引inverted index。這個(gè)操作要恰到好處，以便幾乎不需要暫存空間。排序器還給出docID和偏移量列表，建立反向索引。一個(gè)叫DumpLexicon的程序把這個(gè)列表和由索引器產(chǎn)生的字典結(jié)合在一起，建立一個(gè)新的字典，供搜索器使用。這個(gè)搜索器就是利用一個(gè)Web服務(wù)器，使用由DumpLexicon所生成的字典，利用上述反向索引以及頁(yè)面等級(jí)PageRank來(lái)回答用戶的提問(wèn)。 4.2主要數(shù)據(jù)結(jié)構(gòu)經(jīng)過(guò)優(yōu)化的Google數(shù)據(jù)結(jié)構(gòu)，能夠用較小的代價(jià)抓取大量文檔，建立索引和查詢。雖然近幾年CPU和輸入輸出速率迅速提高。磁盤尋道仍然需要10ms。任何時(shí)候Google系統(tǒng)的設(shè)計(jì)都盡可能地避免磁盤尋道。這對(duì)數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)影響很大。 4.2.1大文件大文件BigFiles是指虛擬文件生成的多文件系統(tǒng)，用長(zhǎng)度是64位的整型數(shù)據(jù)尋址。多文件系統(tǒng)之間的空間分配是自動(dòng)完成的。BigFiles包也處理已分配和未分配文件描述符。由于操縱系統(tǒng)不能滿足我們的需要，BigFiles也支持基本的壓縮選項(xiàng)。 4.2.2知識(shí)庫(kù) Figure 2. Repository Data Structure 知識(shí)庫(kù)包含每個(gè)網(wǎng)頁(yè)的全部HTML。每個(gè)網(wǎng)頁(yè)用zlib（見(jiàn)RFC1950）壓縮。壓縮技術(shù)的選擇既要考慮速度又要考慮壓縮率。我們選擇zlib的速度而不是壓縮率很高的bzip。知識(shí)庫(kù)用bzip的壓縮率接近4：1。而用zlib的壓縮率是3：1。文檔一個(gè)挨著一個(gè)的存儲(chǔ)在知識(shí)庫(kù)中，前綴是docID，長(zhǎng)度，URL，見(jiàn)圖2。訪問(wèn)知識(shí)庫(kù)不需要其它的數(shù)據(jù)結(jié)構(gòu)。這有助于數(shù)據(jù)一致性和升級(jí)。用其它數(shù)據(jù)結(jié)構(gòu)重構(gòu)系統(tǒng)，我們只需要修改知識(shí)庫(kù)和crawler錯(cuò)誤列表文件。 4.2.3文件索引文件索引保存了有關(guān)文檔的一些信息。索引以docID的順序排列，定寬ISAM（Index sequential access mode）。每條記錄包括當(dāng)前文件狀態(tài)，一個(gè)指向知識(shí)庫(kù)的指針，文件校驗(yàn)和，各種統(tǒng)計(jì)表。如果一個(gè)文檔已經(jīng)被抓到，指針指向docinfo文件，該文件的寬度可變，包含了URL和標(biāo)題。否則指針指向包含這個(gè)URL的URL列表。這種設(shè)計(jì)考慮到簡(jiǎn)潔的數(shù)據(jù)結(jié)構(gòu)，以及在查詢中只需要一個(gè)磁盤尋道時(shí)間就能夠訪問(wèn)一條記錄。還有一個(gè)文件用于把URL轉(zhuǎn)換成docID。它是URL校驗(yàn)和與相應(yīng)docID的列表，按校驗(yàn)和排序。要想知道某個(gè)URL的docID，需要計(jì)算URL的校驗(yàn)和，然后在校驗(yàn)和文件中執(zhí)行二進(jìn)制查找，找到它的docID。通過(guò)對(duì)這個(gè)文件進(jìn)行合并，可以把一批URL轉(zhuǎn)換成對(duì)應(yīng)的docID。URL分析器用這項(xiàng)技術(shù)把URL轉(zhuǎn)換成docID。這種成批更新的模式是至關(guān)重要的，否則每個(gè)鏈接都需要一次查詢，假如用一塊磁盤，322‘000’000個(gè)鏈接的數(shù)據(jù)集合將花費(fèi)一個(gè)多月的時(shí)間。 4.2.4詞典詞典有幾種不同的形式。和以前系統(tǒng)的重要不同是，詞典對(duì)內(nèi)存的要求可以在合理的價(jià)格內(nèi)?，F(xiàn)在實(shí)現(xiàn)的系統(tǒng)，一臺(tái)256M內(nèi)存的機(jī)器就可以把詞典裝入到內(nèi)存中?，F(xiàn)在的詞典包含14000000詞匯（雖然一些很少用的詞匯沒(méi)有加入到詞典中）。它執(zhí)行分兩部分—詞匯表（用null分隔的連續(xù)串）和指針的哈希表。不同的函數(shù)，詞匯表有一些輔助信息，這超出了本文論述的范圍。 4.2.5 hit list hit list是一篇文檔中所出現(xiàn)的詞的列表，包括位置，字號(hào)，大小寫。Hit list占很大空間，用在正向和反向索引中。因此，它的表示形式越有效越好。我們考慮了幾種方案來(lái)編碼位置，字號(hào)，大小寫—簡(jiǎn)單編碼（3個(gè)整型數(shù)），緊湊編碼（支持優(yōu)化分配比特位），哈夫曼編碼。Hit的詳細(xì)信息見(jiàn)圖3。我們的緊湊編碼每個(gè)hit用2字節(jié)。有兩種類型hit，特殊hit和普通hit。特殊hit包含URL，標(biāo)題，鏈接描述文字，meta tag。普通hit包含其它每件事。它包括大小寫特征位，字號(hào)，12比特用于描述詞在文檔中的位置（所有超過(guò)4095的位置標(biāo)記為4096）。字號(hào)采用相對(duì)于文檔的其它部分的相對(duì)大小表示，占3比特(實(shí)際只用7個(gè)值，因?yàn)?11標(biāo)志是特殊hit)。特殊hit由大小寫特征位，字號(hào)位為7表示它是特殊hit，用4比特表示特殊hit的類型，8比特表示位置。對(duì)于anchor hit八比特位置位分出4比特用來(lái)表示在anchor中的位置，4比特用于表明anchor出現(xiàn)的哈希表hash of the docID。短語(yǔ)查詢是有限的，對(duì)某些詞沒(méi)有足夠多的anchor。我們希望更新anchor hit的存儲(chǔ)方式，以便解決地址位和docIDhash域位數(shù)不足的問(wèn)題。

以上就是關(guān)于國(guó)內(nèi)搜索引擎大全相關(guān)問(wèn)題的回答。希望能幫到你，如有更多相關(guān)問(wèn)題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。