正文

能打開各種網站的搜索引擎（能打開各種網站的搜索引擎）

發(fā)布時間：2023-03-05 01:25:56 稿源：創(chuàng)意嶺閱讀： 1363 問大家

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關于能打開各種網站的搜索引擎的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

創(chuàng)意嶺作為行業(yè)內優(yōu)秀的企業(yè)，服務客戶遍布全球各地，相關業(yè)務請撥打電話：175-8598-2043，或添加微信：1454722008

本文目錄:

1、誰能介紹幾個國外的搜索引擎(類似于百度這類的)
2、常用的搜索引擎有哪些？
3、除了GOOGLE之外，還有哪個搜索引擎能夠搜索外文網站？
4、現在有那些搜索引擎網站啊?就想是百度一樣的搜索網站,有那些都給我介紹!!拜托各位大神

能打開各種網站的搜索引擎（能打開各種網站的搜索引擎）

一、誰能介紹幾個國外的搜索引擎(類似于百度這類的)

1. Yahoo!(http://www.yahoo.com)

Yahoo!是目前最常用的引擎之一,是Internet引擎的"元老"。

Yahoo!的使用很簡單,可以直接輸入查找關鍵字,也可以先選分類主題進行分類查詢

,它將返回三種信息:

1. 滿足查詢條件的Yahoo目錄(用戶可以利用它們進行交叉引用);

2. 滿足條件的實際站點;

3. 更廣泛的含有頁面索引的Yahoo!目錄,是一種更廣泛的交叉引用。

Yahoo!也提供了一些簡單的高級查詢,其配置選項有:

S搜索的范圍:Yahoo(缺省)、Usenet或E-mail Address;

S搜索詞之間的關系:OR或AND(缺省);

S可以進行子串搜索,將其設置Substrings或Complete words兩種,其中Substrings將

我們輸入的詞作為一個子串,Complete words表示進行完整的單詞搜索,缺省是子串搜索

·控制每頁顯示的結果數目:10、25(缺省)、50或100。

Yahoo!在高級查詢上并不是很完善,但是Yahoo!在其主頁的末尾提供了其他引擎如A

ltaVista的超連接,如果用戶在Yahoo!查不到所需資料,Yahoo!可以到這些地方去搜索。

從而彌補了Yahoo!的一些缺陷。

2. InfoSeek(http://guide.infoseek.com)

InfoSeek是一個高效的搜索引擎,它的特點是:搜索精度高,查到的節(jié)點一般都與用

戶的要求相符。其搜索結果按照相關程度依次顯示。每一個結果顯示該HTML文件的標題

、摘要、大小。

InfoSeek引擎擁有最好的搜索參數的集成,它允許用戶在填寫查尋要求時可以隨心所

欲地不厭其詳,而它在后臺則施以適當的邏輯組合。這就意味著,用戶可以忽略如何使用

搜索引擎,只要集中精力把自己想提的問題寫好就行了。

InfoSeek數據庫中每一網頁的所有文本都被檢索,它的搜索具有"事件敏感性"(case

sensitive),即對某些名字進行搜索時,搜索的效率會明顯提高。用戶輸入一個短語后,I

nfoseek會使用與短語最接近的排位方法,提高搜索結果的相關性。

InfoSeek可以提供以下的搜索范圍:

SWeb:在整個WWW信息系統(tǒng)內查找;

SNews:在實時新聞中查找;

SCompany:在公司名目中搜索;

SNewsgroups:在新聞組中搜索。

Infoseek的搜索方法包括:

1. 詞組(短語)搜索這時需對詞組加上雙引號,以示與單個詞的區(qū)別;

2. 查找同時出現的詞對所要搜索的關鍵詞加上[ ],表示括號內的詞在文本中出現

時,其間隔不超過100個詞。

3. AltaVista(altavista.digital.com)

AltaVista自1996年12月開始服務以來,引起了世界各地網民的廣泛注意,每天都要

接受200萬次以上的訪問。AltaVista自詡擁有2100多萬全文索引的網頁,可以稱得上是最

大的網絡搜索數據庫。

相對其他搜索引擎而言,AltaVista的搜索結果總是比其他任何站點的搜索結果內容

更豐富,AltaVista的搜索范圍大得驚人,有人說能對網絡的天涯海角進行徹底搜索的僅此

一家,就連一些鮮為人知的偏僻站點也能找到。所以,使用AltaVista時,要花更多的時間

在搜索結果里尋找自己想要的信息。不過,如果你的目的就是想找到關于某個主題的站點

,多多益善,那么AltaVista是最好的選擇。

根據檢索的對象,AltaVista搜索引擎提供三大類信息檢索:Web檢索和新聞組檢索、

商業(yè)檢索以及人物檢索。除公共檢索服務外,AltaVista還提供免費E-mail、頁面翻譯等

相關服務。它的搜索方法分為簡單和高級兩種。

1. 簡單搜索

AltaVista搜索引擎推薦使用的檢索方法, 是直接使用自然語言輸入檢索提問。檢索

提問可以是自然語言的單詞、詞組或短語以及完整的問題。對使用AltaVista的最有用的

建議是, 由于它的索引是基于整個單詞的正文的,在描述查找的單詞時越精確越好,還要

去掉那些不感興趣的單詞。

2. 高級搜索

高級搜索包含了簡單搜索的所有特性,還可以有布爾和接近操作符、括起來的邏輯組

合等。AltaVista支持二元操作符AND、OR、NEAR和一元操作符NOT。

AltaVista的接近操作符(NEAR)很有特色?？梢允褂肗EAR/n,n是兩個被搜索詞之間的

單詞的數目,如:Microsoft NEAR/5 Internet表示在"Microsoft"和"Internet"這兩個關

鍵字之間的單詞數目不得超過5個。如果不輸入n,表示兩個詞挨在一起。為了控制挨在一

起的兩個詞之間的順序,可以使用 ADJ 操作符,如:Microsoft ADJ Internet,表示Micro

soft 必須在Internet之前。

4. Lycos ( http://www.lycos.com)

Lycos是最老資格的搜索引擎之一,只要能給出準確的搜索結果,Lycos通常能給出最

全面的結果(基本上與AltaVista相同)。 Lycos的搜索范圍分的較細,這樣可以減少命中

的數量,可選擇的項目有:

The Web、Web Site Reviews、Personal Home- pages、Message Boards、Reuters

News、Weather (city)、Cities、Dictionary、Stock (symbol)、Music (artist)、B

ooks、Pictures、Sounds、Downloads、Recipes等。

Lycos不是周期性地更新數據庫,而是采用累積的形式構筑數據庫。在對新的和原來

存在的數據庫進行信息升級時,Lycos軟件通過觀察其他站點通向某一站點的鏈接數而評

價這個站點的知名度。然后引擎在每次搜索時都使用這一知名度索引,所以每次搜索結果

的相關性在一定的程度上取決于站點的相對知名度。

Lycos搜索結果的容量非常之大,你如果試圖在網上迅速找到某個內容,Lycos不是最

好的選擇,如果你需要對網上的內容廣進博收,多多益善,Lycos可能會為你找到一些其他

站點找不到的內容。

Lycos在支持邏輯搜索和高級搜索功能方面較弱。

Lycos不提供要求/排除單詞的功能, 但可以在一個單詞前加一個"-"號,表示在給結

果定等級時,不考慮這個單詞。

Lycos的通配符是$符號。如gen$ 表示 genetic、 genesis、general等。它還提供

了英文句號(.)的使用,可以禁止擴展一個單詞。如gene.,只能得到gene,而得不到genet

ics和general。

5. Excite(http://www.excite.com)

Netscape在其Navigator瀏覽器的NetDirectory命令條中選中了Excite作為其中的一

個鏈接,這使Excite的知名度明顯提高。眾多的訪問大大提高了Excite站點的流通量。

Excite使用的是基于關鍵詞或基于概念的正文和主題搜索。概念搜索是指搜索引擎

不只簡單地查找含有要查找的單詞的文檔,同時還搜索與要查找的概念相關的文檔。缺省

的查找是概念查找。Excite既提供網絡搜索引擎,又提供以類目形式組織起來的網絡目錄

(類似于Yahoo的目錄索引)。

Excite中要求的單詞和排除的單詞的使用方法同AltaVista一樣,使用+號和-號,Exc

ite支持二元操作符AND、OR 和一元操作符NOT,它也支持用括號來構成邏輯組。

6. Webcrawler(http://www.webcrawler.com)

Webcrawler 是一個杰出的搜索引擎, 它的界面有些像 AltaVista。實際上,它在

高級搜索方面的功能要比AlataVista強。它提供事先分好類的19個主題,實現了基于主題

的搜索。

Webcrawler號稱支持"自然語言搜索",所以可以輸入像"highest mountain in the

world(世界上最高的山)"這樣的查詢條件。它拋棄了無意義的詞,對其余的詞做模糊的A

ND搜索,含有所有的詞的頁面等級最高, 但也能查到只含一個詞的頁面,這是那些最佳引

擎的通用策略。

Webcrawler的詞組、邏輯和接近操作符的使用類似于AltaVista。Webcrawler不支

持要求/排除的單詞的查找,也不支持通配符。

WebCrawler的主要缺點是,它對搜索到的每個條目都不顯示文本內容摘要。用戶只能

看到網頁題目和顯示WebCrawler相關性排名的數字。所以,除非網頁題目直接描述網頁內

容,否則用戶只能到這個站點訪問,才能得知其網頁內容。

在互聯網上，中文內容只占約4%，絕大多數是英文內容，所以只有掌握英文搜索才能真正的深入互聯網。但是，英文搜索引擎很多，變化也很快，應該用哪個搜索，和怎么搜索呢？今天，我就來介紹幾個最有代表性的英文搜索引擎。

Ask （www.ask.com，又名askjeeves）

Ask是一個支持自然提問的搜索引擎，它的數據庫里儲存了超過1000萬個問題的答案，只要你用英文直接輸入一個問題，它就會給出問題答案，如果你的問題答案不在它的數據庫中，那么它會列出一串跟你的問題類似的問題和含有答案的鏈接，供你選擇。

根據網友們的使用經驗，當你遇到一些屬于事實型、原理型的問題時，使用Ask是最方便的。例如：“美國歷任總統(tǒng)中就任時年紀最輕的是誰？”、“阿富汗的首都叫什么？”、“飛機是哪一年發(fā)明的？”、“雪為什么是白的？”、“為什么吃豆子的人愛放屁？”、“恐龍為什么滅絕？”、“后街男孩的網站在哪里？”。你還可以問它各種奇怪的問題，例如：“現在幾點了？”、“羅馬帝國為什么崩潰？”、“圣誕老人住在哪兒？”，它都會給你答案的。

dmoz（www.dmoz.org，又名ODP）

有的網友不喜歡自己輸入英文單詞搜索，而是喜歡用鼠標點擊分類目錄隨意瀏覽，那么我向你推薦dmoz。

dmoz是互聯網合作共享精神的結晶，它的4萬多名志愿編輯都是各行各業(yè)的專業(yè)人員，大家走到一起免費制作dmoz，提供給任何個人和組織免費使用。dmoz已經收錄了40多萬子目錄和近300萬個網站，是世界上最大的、也是最好的網站分類目錄，已經被世界各國400多個網站選做默認搜索引擎。dmoz使用起來非常方便，它提供相關目錄使你不容易漏掉其它目錄里的的相關內容，它還用一顆小星星推薦各個目錄下最好的網站，使初學者不會被太多的網站弄迷途。

另外，任何人都可以申請成為dmoz的搜索引擎編輯，你也可以去申請，嘗試一下親自做搜索引擎編輯的感覺，不過，要被批準可得有點實力才行哦。

Google（www.google.com）

Google是在國外很受歡迎的搜索引擎，界面簡潔，以搜索結果的準確性著稱，它的網頁快照和圖片搜索也很有特色。

網頁快照就是網頁的備份，你在Google搜索的時候，如果發(fā)現某條搜索結果點不進去，是死鏈接，那么只要點擊搜索結果旁邊的網頁快照（Cached），就能看到Google保存的備份網頁。

Google還有世界上最大的圖片搜索引擎（images.google.com），收集了互聯網上3.3億張圖片，如果你想找哪個偶像的照片、想找某個名勝的風景照、想找軍事兵器圖片、、、只要輸入合適的英文單詞，很容易找到滿意的圖片。

search（www.search.com）

search屬于元搜索引擎，它收集了800多種專業(yè)搜索引擎和數據庫，分為商業(yè)金融、娛樂、健康醫(yī)藥、新聞媒體、評論、計算機、游戲、國際、尋人、購物、下載、政府、音樂、參考資料、旅行共15個大主題，每個大主題又分許多小主題。

當你進入任何一個主題搜索的時候，它都可以同時搜索這個主題下的多個專業(yè)搜索引擎和數據庫，然后在一個頁面上顯示來自不同搜索引擎的搜索結果。

比如進入大主題“新聞媒體”搜索，它把搜索結果分為頭條新聞、商業(yè)新聞、體育新聞、娛樂新聞、科技新聞、雜志、報紙，如果再進入小主題“科技新聞”搜索，那么它可以同時搜索CNET、PC World、ZDNet、IDG.net、TechWeb這5個著名的科技新聞網站，足夠保證你得到最全最新的科技新聞。

好了，每個搜索引擎都有獨特的優(yōu)缺點，不同的需要就應該使用不同的搜索引擎。

如果你搜索英文內容，那么我給你推薦的使用習慣是：上網隨便逛逛就用dmoz，平時搜索就用google，有問題就問ask，要做特定的主題搜索就用search.com。

二、常用的搜索引擎有哪些？

索引擎（search engines）是對互聯網上的信息資源進行搜集整理，然后供你查詢的系統(tǒng)，它包括信息搜集、信息整理和用戶查詢三部分。搜索引擎是一個為你提供信息“檢索”服務的網站，它使用某些程序把因特網上的所有信息歸類以幫助人們在茫茫網海中搜尋到所需要的信息。早期的搜索引擎是把因特網中的資源服務器的地址收集起來，由其提供的資源的類型不同而分成不同的目錄，再一層層地進行分類。人們要找自己想要的信息可按他們的分類一層層進入，就能最后到達目的地，找到自己想要的信息。這其實是最原始的方式，只適用于因特網信息并不多的時候。隨著因特網信息按幾何式增長，出現了真正意義上的搜索引擎，這些搜索引擎知道網站上每一頁的開始，隨后搜索因特網上的所有超級鏈接，把代表超級鏈接的所有詞匯放入一個數據庫。這就是現在搜索引擎的原型。隨著yahoo!的出現，搜索引擎的發(fā)展也進入了黃金時代，相比以前其性能更加優(yōu)越?，F在的搜索引擎已經不只是單純的搜索網頁的信息了，它們已經變得更加綜合化，完美化了。以搜索引擎權威yahoo!為例，從1995年3月由美籍華裔楊致遠等人創(chuàng)辦yahoo!開始，到現在，他們從一個單一的搜索引擎發(fā)展到現在有電子商務、新聞信息服務、個人免費電子信箱服務等多種網絡服務，充分說明了搜索引擎的發(fā)展從單一到綜合的過程。然而由于搜索引擎的工作方式和因特網的快速發(fā)展，使其搜索的結果讓人越來越不滿意。例如，搜索“電腦”這個詞匯，就可能有數百萬頁的結果。這是由于搜索引擎通過對網站的相關性來優(yōu)化搜索結果，這種相關性又是由關鍵字在網站的位置、網站的名稱、標簽等公式來決定的。這就是使搜索引擎搜索結果多而雜的原因。而搜索引擎中的數據庫因為因特網的發(fā)展變化也必然包含了死鏈接。這篇文章中，我們介紹了google，它是一個大型的搜索引擎（of a large-scale search engine）的原型，搜索引擎在超文本中應用廣泛。Google的設計能夠高效地抓網頁并建立索引，它的查詢結果比其它現有系統(tǒng)都高明。這個原型的全文和超連接的數據庫至少包含24‘000‘000個網頁。我們可以從http://google.stanford.edu/ 下載。設計搜索引擎是一項富有挑戰(zhàn)性的工作。搜索引擎為上億個網頁建立索引，其中包含大量迥然不同的詞匯。而且每天要回答成千上萬個查詢。在網絡中，盡管大型搜索引擎非常重要，但是學術界卻很少研究它。此外由于技術的快速發(fā)展和網頁的大量增加，現在建立一個搜索引擎和三年前完全不同。本文詳細介紹了我們的大型搜索引擎，據我們所知，在公開發(fā)表的論文中，這是第一篇描述地如此詳細。除了把傳統(tǒng)數據搜索技術應用到如此大量級網頁中所遇到的問題，還有許多新的技術挑戰(zhàn)，包括應用超文本中的附加信息改進搜索結果。本文將解決這個問題，描述如何運用超文本中的附加信息，建立一個大型實用系統(tǒng)。任何人都可以在網上隨意發(fā)布信息，如何有效地處理這些無組織的超文本集合，也是本文要關注的問題。關鍵詞 World Wide Web，搜索引擎，信息檢索，PageRank, Google 1 緒論 Web 給信息檢索帶來了新的挑戰(zhàn)。Web上的信息量快速增長，同時不斷有毫無經驗的新用戶來體驗Web這門藝術。人們喜歡用超級鏈接來網上沖浪，通常都以象Yahoo這樣重要的網頁或搜索引擎開始。大家認為List(目錄)有效地包含了大家感興趣的主題，但是它具有主觀性，建立和維護的代價高，升級慢，不能包括所有深奧的主題?；陉P鍵詞的自動搜索引擎通常返回太多的低質量的匹配。使問題更遭的是，一些廣告為了贏得人們的關注想方設法誤導自動搜索引擎。我們建立了一個大型搜索引擎解決了現有系統(tǒng)中的很多問題。應用超文本結構，大大提高了查詢質量。我們的系統(tǒng)命名為google，取名自googol的通俗拼法，即10的100次方，這和我們的目標建立一個大型搜索引擎不謀而合。 1.1網絡搜索引擎—升級換代（scaling up）：1994-2000 搜索引擎技術不得不快速升級（scale dramatically）跟上成倍增長的web數量。1994年，第一個Web搜索引擎，World Wide Web Worm(WWWW)可以檢索到110，000個網頁和Web的文件。到1994年11月，頂級的搜索引擎聲稱可以檢索到2‘000’000（WebCrawler）至100‘000’000個網絡文件（來自 Search Engine Watch）?？梢灶A見到2000年，可檢索到的網頁將超過1‘000’000‘000。同時，搜索引擎的訪問量也會以驚人的速度增長。在1997年的三四月份，World Wide Web Worm 平均每天收到1500個查詢。在1997年11月，Altavista 聲稱它每天要處理大約20’000’000個查詢。隨著網絡用戶的增長，到2000年，自動搜索引擎每天將處理上億個查詢。我們系統(tǒng)的設計目標要解決許多問題，包括質量和可升級性，引入升級搜索引擎技術（scaling search engine technology），把它升級到如此大量的數據上。 1.2 Google：跟上Web的步伐（Scaling with the Web）建立一個能夠和當今web規(guī)模相適應的搜索引擎會面臨許多挑戰(zhàn)。抓網頁技術必須足夠快，才能跟上網頁變化的速度（keep them up to date）。存儲索引和文檔的空間必須足夠大。索引系統(tǒng)必須能夠有效地處理上千億的數據。處理查詢必須快，達到每秒能處理成百上千個查詢（hundreds to thousands per second.）。隨著Web的不斷增長，這些任務變得越來越艱巨。然而硬件的執(zhí)行效率和成本也在快速增長，可以部分抵消這些困難。還有幾個值得注意的因素，如磁盤的尋道時間（disk seek time），操作系統(tǒng)的效率（operating system robustness）。在設計Google的過程中，我們既考慮了Web的增長速度，又考慮了技術的更新。Google的設計能夠很好的升級處理海量數據集。它能夠有效地利用存儲空間來存儲索引。優(yōu)化的數據結構能夠快速有效地存?。▍⒖?.2節(jié)）。進一步，我們希望，相對于所抓取的文本文件和HTML網頁的數量而言，存儲和建立索引的代價盡可能的小（參考附錄B）。對于象Google這樣的集中式系統(tǒng)，采取這些措施得到了令人滿意的系統(tǒng)可升級性（scaling properties）。 1. 3設計目標 1.3.1提高搜索質量我們的主要目標是提高Web搜索引擎的質量。1994年，有人認為建立全搜索索引（a complete search index）可以使查找任何數據都變得容易。根據Best of the Web 1994 -- Navigators ，“最好的導航服務可以使在Web上搜索任何信息都很容易（當時所有的數據都可以被登錄）”。然而1997年的Web就迥然不同。近來搜索引擎的用戶已經證實索引的完整性不是評價搜索質量的唯一標準。用戶感興趣的搜索結果往往湮沒在“垃圾結果Junk result”中。實際上，到1997年11月為止，四大商業(yè)搜索引擎中只有一個能夠找到它自己（搜索自己名字時返回的前十個結果中有它自己）。導致這一問題的主要原因是文檔的索引數目增加了好幾個數量級，但是用戶能夠看的文檔數卻沒有增加。用戶仍然只希望看前面幾十個搜索結果。因此，當集合增大時，我們就需要工具使結果精確（在返回的前幾十個結果中，有關文檔的數量）。由于是從成千上萬個有點相關的文檔中選出幾十個，實際上，相關的概念就是指最好的文檔。高精確非常重要，甚至以響應（系統(tǒng)能夠返回的有關文檔的總數）為代價。令人高興的是利用超文本鏈接提供的信息有助于改進搜索和其它應用。尤其是鏈接結構和鏈接文本，為相關性的判斷和高質量的過濾提供了大量的信息。Google既利用了鏈接結構又用到了anchor文本（見2.1和2.2節(jié)）。 1.3.2搜索引擎的學術研究隨著時間的流逝，除了發(fā)展迅速，Web越來越商業(yè)化。1993年，只有1.5%的Web服務是來自.com域名。到1997年，超過了60%。同時，搜索引擎從學術領域走進商業(yè)。到現在大多數搜索引擎被公司所有，很少技公開術細節(jié)。這就導致搜索引擎技術很大程度上仍然是暗箱操作，并傾向做廣告（見附錄A）。Google的主要目標是推動學術領域在此方面的發(fā)展，和對它的了解。另一個設計目標是給大家一個實用的系統(tǒng)。應用對我們來說非常重要，因為現代網絡系統(tǒng)中存在大量的有用數據（us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems）。例如，每天有幾千萬個研究。然而，得到這些數據卻非常困難，主要因為它們沒有商業(yè)價值。我們最后的設計目標是建立一個體系結構能夠支持新的關于海量Web數據的研究。為了支持新研究，Google以壓縮的形式保存了實際所抓到的文檔。設計google的目標之一就是要建立一個環(huán)境使其他研究者能夠很快進入這個領域，處理海量Web數據，得到滿意的結果，而通過其它方法卻很難得到結果。系統(tǒng)在短時間內被建立起來，已經有幾篇論文用到了Google建的數據庫，更多的在起步中。我們的另一個目標是建立一個宇宙空間實驗室似的環(huán)境，在這里研究者甚至學生都可以對我們的海量Web數據設計或做一些實驗。 2. 系統(tǒng)特點 Google搜索引擎有兩個重要特點，有助于得到高精度的搜索結果。第一點，應用Web的鏈接結構計算每個網頁的Rank值，稱為PageRank，將在98頁詳細描述它。第二點，Google利用超鏈接改進搜索結果。 2.1 PageRank:給網頁排序 Web的引用（鏈接）圖是重要的資源，卻被當今的搜索引擎很大程度上忽視了。我們建立了一個包含518‘000’000個超鏈接的圖，它是一個具有重要意義的樣本。這些圖能夠快速地計算網頁的PageRank值，它是一個客觀的標準，較好的符合人們心目中對一個網頁重要程度的評價，建立的基礎是通過引用判斷重要性。因此在web中，PageRank能夠優(yōu)化關鍵詞查詢的結果。對于大多數的主題，在網頁標題查詢中用PageRank優(yōu)化簡單文本匹配，我們得到了令人驚嘆的結果（從google.stanford.edu可以得到演示）。對于Google主系統(tǒng)中的全文搜索，PageRank也幫了不少忙。 2.1.1計算PageRank 文獻檢索中的引用理論用到Web中，引用網頁的鏈接數，一定程度上反映了該網頁的重要性和質量。PageRank發(fā)展了這種思想，網頁間的鏈接是不平等的。 PageRank定義如下: 我們假設T1…Tn指向網頁A（例如，被引用）。參數d是制動因子，使結果在0，1之間。通常d等于0.85。在下一節(jié)將詳細介紹d。C（A）定義為網頁A指向其它網頁的鏈接數，網頁A的PageRank值由下式給出： PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式，分布到各個網頁中，因此所有網頁的PageRank和是1。 PageRank或PR（A）可以用簡單的迭代算法計算，相應規(guī)格化Web鏈接矩陣的主特征向量。中等規(guī)模的網站計算26‘000’000網頁的PageRank值要花費幾小時。還有一些技術細節(jié)超出了本文論述的范圍。 2.1.2直覺判斷 PageRank被看作用戶行為的模型。我們假設網上沖浪是隨機的，不斷點擊鏈接，從不返回，最終煩了，另外隨機選一個網頁重新開始沖浪。隨機訪問一個網頁的可能性就是它的PageRank值。制動因子d是隨機訪問一個網頁煩了的可能性，隨機另選一個網頁。對單個網頁或一組網頁，一個重要的變量加入到制動因子d中。這允許個人可以故意地誤導系統(tǒng)，以得到較高的PageRank值。我們還有其它的PageRank算法，見98頁。另外的直覺判斷是一個網頁有很多網頁指向它，或者一些PageRank值高的網頁指向它，則這個網頁很重要。直覺地，在Web中，一個網頁被很多網頁引用，那么這個網頁值得一看。一個網頁被象Yahoo這樣重要的主頁引用即使一次，也值得一看。如果一個網頁的質量不高，或者是死鏈接，象Yahoo這樣的主頁不會鏈向它。PageRank處理了這兩方面因素，并通過網絡鏈接遞歸地傳遞。 & nbsp; 2.2鏈接描述文字（Anchor Text）我們的搜索引擎對鏈接文本進行了特殊的處理。大多數搜索引擎把鏈接文字和它所鏈向的網頁（the page that the link is on）聯系起來。另外，把它和鏈接所指向的網頁聯系起來。這有幾點好處。第一，通常鏈接描述文字比網頁本身更精確地描述該網頁。第二，鏈接描述文字可能鏈向的文檔不能被文本搜索引擎檢索到，例如圖像，程序和數據庫。有可能使返回的網頁不能被抓到。注意哪些抓不到的網頁將會帶來一些問題。在返回給用戶前檢測不了它們的有效性。這種情況搜索引擎可能返回一個根本不存在的網頁，但是有超級鏈接指向它。然而這種結果可以被挑出來的，所以此類的問題很少發(fā)生。鏈接描述文字是對被鏈向網頁的宣傳，這個思想被用在World Wide Web Worm 中，主要因為它有助于搜索非文本信息，能夠用少量的已下載文檔擴大搜索范圍。我們大量應用鏈接描述文字，因為它有助于提高搜索結果的質量。有效地利用鏈接描述文字技術上存在一些困難，因為必須處理大量的數據?，F在我們能抓到24‘000’000個網頁，已經檢索到259‘000’000多個鏈接描述文字。 2.3其它特點除了PageRank和應用鏈接描述文字外，Google還有一些其它特點。第一,所有hit都有位置信息，所以它可以在搜索中廣泛應用鄰近性（proximity）。第二，Google跟蹤一些可視化外表細節(jié)，例如字號。黑體大號字比其它文字更重要。第三，知識庫存儲了原始的全文html網頁。 3有關工作 Web檢索研究的歷史簡短。World Wide Web Worm（）是最早的搜索引擎之一。后來出現了一些用于學術研究的搜索引擎，現在它們中的大多數被上市公司擁有。與Web的增長和搜索引擎的重要性相比，有關當今搜索引擎技術的優(yōu)秀論文相當少。根據Michael Mauldin（Lycos Inc的首席科學家）) ，“各種各樣的服務（包括Lycos）非常關注這些數據庫的細節(jié)。”雖然在搜索引擎的某些特點上做了大量工作。具有代表性的工作有，對現有商業(yè)搜索引擎的結果進行傳遞，或建立小型的個性化的搜索引擎。最后有關信息檢索系統(tǒng)的研究很多，尤其在有組織機構集合（well controlled collections）方面。在下面兩節(jié)，我們將討論在信息檢索系統(tǒng)中的哪些領域需要改進以便更好的工作在Web上。 3.1信息檢索信息檢索系統(tǒng)誕生在幾年前，并發(fā)展迅速。然而大多數信息檢索系統(tǒng)研究的對象是小規(guī)模的單一的有組織結構的集合，例如科學論文集，或相關主題的新聞故事。實際上，信息檢索的主要基準，the Text Retrieval Conference（），用小規(guī)模的、有組織結構的集合作為它們的基準。大型文集基準只有20GB，相比之下，我們抓到的24000000個網頁占147GB。在TREC上工作良好的系統(tǒng)，在Web上卻不一定產生好的結果。例如，標準向量空間模型企圖返回和查詢請求最相近的文檔，把查詢請求和文檔都看作由出現在它們中的詞匯組成的向量。在Web環(huán)境下，這種策略常常返回非常短的文檔，這些文檔往往是查詢詞再加幾個字。例如，查詢“Bill Clinton”，返回的網頁只包含“Bill Clinton Sucks”，這是我們從一個主要搜索引擎中看到的。網絡上有些爭議，用戶應該更準確地表達他們想查詢什么，在他們的查詢請求中用更多的詞。我們強烈反對這種觀點。如果用戶提出象“Bill Clinton”這樣的查詢請求，應該得到理想的查詢結果，因為這個主題有許多高質量的信息。象所給的例子，我們認為信息檢索標準需要發(fā)展，以便有效地處理Web數據。 3.2有組織結構的集合（Well Controlled Collections）與Web的不同點 Web是完全無組織的異構的大量文檔的集合。Web中的文檔無論內在信息還是隱含信息都存在大量的異構性。例如，文檔內部就用了不同的語言（既有人類語言又有程序），詞匯（[email]地址，鏈接，郵政編碼，電話號碼，產品號），類型（文本，HTML，PDF，圖像，聲音），有些甚至是機器創(chuàng)建的文件（log文件，或數據庫的輸出）。可以從文檔中推斷出來，但并不包含在文檔中的信息稱為隱含信息。隱含信息包括來源的信譽，更新頻率，質量，訪問量和引用。不但隱含信息的可能來源各種各樣，而且被檢測的信息也大不相同，相差可達好幾個數量級。例如，一個重要主頁的使用量，象Yahoo 每天瀏覽數達到上百萬次，于此相比無名的歷史文章可能十年才被訪問一次。很明顯，搜索引擎對這兩類信息的處理是不同的。 Web與有組織結構集合之間的另外一個明顯區(qū)別是，事實上，向Web上傳信息沒有任何限制。靈活利用這點可以發(fā)布任何對搜索引擎影響重大的信息，使路由阻塞，加上為牟利故意操縱搜索引擎，這些已經成為一個嚴重的問題。這些問題還沒有被傳統(tǒng)的封閉的信息檢索系統(tǒng)所提出來。它關心的是元數據的努力，這在Web搜索引擎中卻不適用，因為網頁中的任何文本都不會向用戶聲稱企圖操縱搜索引擎。甚至有些公司為牟利專門操縱搜索引擎。 4 系統(tǒng)分析（System Anatomy）首先，我們提供高水平的有關體系結構的討論。然后，詳細描述重要的數據結構。最后，主要應用：抓網頁，索引，搜索將被嚴格地檢查。 Figure 1. High Level Google Architecture 4.1Google體系結構概述這一節(jié)，我們將看看整個系統(tǒng)是如何工作的（give a high level），見圖1。本節(jié)不討論應用和數據結構，在后幾節(jié)中討論。為了效率大部分Google是用c或c++實現的，既可以在Solaris也可以在Linux上運行。 Google系統(tǒng)中，抓網頁（下載網頁）是由幾個分布式crawlers完成的。一個URL服務器負責向crawlers提供URL列表。抓來的網頁交給存儲服務器storeserver。然后，由存儲服務器壓縮網頁并把它們存到知識庫repository中。每個網頁都有一個ID，稱作docID，當新URL從網頁中分析出時，就被分配一個docID。由索引器和排序器負責建立索引index function。索引器從知識庫中讀取文檔，對其解壓縮和分析。每個文檔被轉換成一組詞的出現情況，稱作命中hits。Hits紀錄了詞，詞在文檔中的位置，最接近的字號，大小寫。索引器把這些hits分配到一組桶barrel中，產生經過部分排序后的索引。索引器的另一個重要功能是分析網頁中所有的鏈接，將有關的重要信息存在鏈接描述anchors文件中。該文件包含了足夠的信息，可以用來判斷每個鏈接鏈出鏈入節(jié)點的信息，和鏈接文本。 URL分解器resolver閱讀鏈接描述anchors文件，并把相對URL轉換成絕對URL，再轉換成docID。為鏈接描述文本編制索引，并與它所指向的docID關聯起來。同時建立由docID對組成的鏈接數據庫。用于計算所有文檔的PageRank值。用docID分類后的barrels，送給排序器sorter，再根據wordID進行分類，建立反向索引inverted index。這個操作要恰到好處，以便幾乎不需要暫存空間。排序器還給出docID和偏移量列表，建立反向索引。一個叫DumpLexicon的程序把這個列表和由索引器產生的字典結合在一起，建立一個新的字典，供搜索器使用。這個搜索器就是利用一個Web服務器，使用由DumpLexicon所生成的字典，利用上述反向索引以及頁面等級PageRank來回答用戶的提問。 4.2主要數據結構經過優(yōu)化的Google數據結構，能夠用較小的代價抓取大量文檔，建立索引和查詢。雖然近幾年CPU和輸入輸出速率迅速提高。磁盤尋道仍然需要10ms。任何時候Google系統(tǒng)的設計都盡可能地避免磁盤尋道。這對數據結構的設計影響很大。 4.2.1大文件大文件BigFiles是指虛擬文件生成的多文件系統(tǒng)，用長度是64位的整型數據尋址。多文件系統(tǒng)之間的空間分配是自動完成的。BigFiles包也處理已分配和未分配文件描述符。由于操縱系統(tǒng)不能滿足我們的需要，BigFiles也支持基本的壓縮選項。 4.2.2知識庫 Figure 2. Repository Data Structure 知識庫包含每個網頁的全部HTML。每個網頁用zlib（見RFC1950）壓縮。壓縮技術的選擇既要考慮速度又要考慮壓縮率。我們選擇zlib的速度而不是壓縮率很高的bzip。知識庫用bzip的壓縮率接近4：1。而用zlib的壓縮率是3：1。文檔一個挨著一個的存儲在知識庫中，前綴是docID，長度，URL，見圖2。訪問知識庫不需要其它的數據結構。這有助于數據一致性和升級。用其它數據結構重構系統(tǒng)，我們只需要修改知識庫和crawler錯誤列表文件。 4.2.3文件索引文件索引保存了有關文檔的一些信息。索引以docID的順序排列，定寬ISAM（Index sequential access mode）。每條記錄包括當前文件狀態(tài)，一個指向知識庫的指針，文件校驗和，各種統(tǒng)計表。如果一個文檔已經被抓到，指針指向docinfo文件，該文件的寬度可變，包含了URL和標題。否則指針指向包含這個URL的URL列表。這種設計考慮到簡潔的數據結構，以及在查詢中只需要一個磁盤尋道時間就能夠訪問一條記錄。還有一個文件用于把URL轉換成docID。它是URL校驗和與相應docID的列表，按校驗和排序。要想知道某個URL的docID，需要計算URL的校驗和，然后在校驗和文件中執(zhí)行二進制查找，找到它的docID。通過對這個文件進行合并，可以把一批URL轉換成對應的docID。URL分析器用這項技術把URL轉換成docID。這種成批更新的模式是至關重要的，否則每個鏈接都需要一次查詢，假如用一塊磁盤，322‘000’000個鏈接的數據集合將花費一個多月的時間。 4.2.4詞典詞典有幾種不同的形式。和以前系統(tǒng)的重要不同是，詞典對內存的要求可以在合理的價格內?，F在實現的系統(tǒng)，一臺256M內存的機器就可以把詞典裝入到內存中?，F在的詞典包含14000000詞匯（雖然一些很少用的詞匯沒有加入到詞典中）。它執(zhí)行分兩部分—詞匯表（用null分隔的連續(xù)串）和指針的哈希表。不同的函數，詞匯表有一些輔助信息，這超出了本文論述的范圍。 4.2.5 hit list hit list是一篇文檔中所出現的詞的列表，包括位置，字號，大小寫。Hit list占很大空間，用在正向和反向索引中。因此，它的表示形式越有效越好。我們考慮了幾種方案來編碼位置，字號，大小寫—簡單編碼（3個整型數），緊湊編碼（支持優(yōu)化分配比特位），哈夫曼編碼。Hit的詳細信息見圖3。我們的緊湊編碼每個hit用2字節(jié)。有兩種類型hit，特殊hit和普通hit。特殊hit包含URL，標題，鏈接描述文字，meta tag。普通hit包含其它每件事。它包括大小寫特征位，字號，12比特用于描述詞在文檔中的位置（所有超過4095的位置標記為4096）。字號采用相對于文檔的其它部分的相對大小表示，占3比特(實際只用7個值，因為111標志是特殊hit)。特殊hit由大小寫特征位，字號位為7表示它是特殊hit，用4比特表示特殊hit的類型，8比特表示位置。對于anchor hit八比特位置位分出4比特用來表示在anchor中的位置，4比特用于表明anchor出現的哈希表hash of the docID。短語查詢是有限的，對某些詞沒有足夠多的anchor。我們希望更新anchor hit的存儲方式，以便解決地址位和docIDhash域位數不足的問題。

三、除了GOOGLE之外，還有哪個搜索引擎能夠搜索外文網站？

全球十大搜索引擎

MSN Search Microsoft 的 MSN Search, 由 LookSmart 支持，二級查詢結果由 Inktomi 提供。 Overture (嚴格說是PPC搜索引擎) 將頂部的查詢結果提供給 MSN. 為對 MSN 成功優(yōu)化網站，那么必須仔細考慮 LookSmart 和 Inktomi 的排名要求。在某些情況下， Direct Hit 的查詢結果也會體現在該搜索引擎上。

Yahoo 一致公認的最佳搜索引擎(嚴格說是份類目錄)，它的web查詢結果來自Google(近期有所變更). 收錄在它分類目錄中的網站。其查詢結果以分類目錄的查詢結果顯示。商業(yè)站點收錄至分類目錄的年費用為299美金，它將用幾周到幾月的時間才會給您結果，告訴您網站最終是否被收錄。

Google 免費搜索引擎。頂部搜索結果將列入 LookSmart, Yahoo, 及 Open Source Directory.

Google 非常關注外部鏈接，如故一個網站有較多質量較好的外部鏈接，將獲得較高的排名。它的 AdWords/AdSelect 也將作為查詢結果顯示。

AOL Search 從 Google 搜索數據庫中獲得查詢結果。想在 AOL 中獲得好的排名應該關注 Google 的排名規(guī)則。

Lycos 該分類目錄搜索引擎查詢結果來自 Fast/AllTheWeb, Overture 和 Open Source Directory.

Ask Jeeves 擁有人工編輯分類目錄和來自 Teoma 的搜索引擎爬行結果。Overture 作為贊助商，查詢結果也將出現在該搜索引擎的結果中。

LookSmart - Zeal 人工編輯搜索引擎分類目錄，支持 MSN 及 Excite等較多的合作伙伴。

當 LookSmart 搜索無果時，由 Inktomi 提供搜索結果。

Overture 前身 GoTo.com, 嚴格來說是PPC搜索引擎。它的搜索結果將列入 Yahoo, MSN, Altavista 等搜索引擎。

Netscape Search 現在 NetScape 的查詢結果來自于 Google.

AltaVista 對老的搜索引擎之一，至今任然在搜索引擎中占有重要地位。他有免費網站登陸及收費網站登陸兩種。

Open Directory 該開放目錄是志愿編輯人員預審的搜索引擎目錄，它的查詢結果和 NetScape, AOL, Google, Lycos等共享

四、現在有那些搜索引擎網站啊?就想是百度一樣的搜索網站,有那些都給我介紹!!拜托各位大神

全世界有成千上萬個被稱為 “ 搜索引擎 ” 的網站。實際上，這些網站中真正適合海外推廣的搜索引擎不過 10 個。其中最著名的是 Google, Yahoo, Alltheweb, AltaVista 和 Inktomi 等。其他網站的搜索結果都來自于這些搜索引擎，或者他們之間的搜索結果交叉使用。為了讓您更好地進行網站推廣，我們以下將對其作逐一介紹。 Google 全球最大的機器搜索引擎， Google 每天提供 2 億次查詢服務，占全球搜索引擎查詢市場份額的 29.2 ％，無可爭議的世界第一； Google 通過對 80 多億網頁進行整理，為世界各地的用戶提供適需的搜索結果，而且搜索時間通常不到半秒。 Yahoo ！是全球認知度最高及最有價值的互聯網品牌之一，也是最大的門戶網站。有英、中、日、韓、法、德等 10 余種語言版本。在全球消費者品牌排名中居第 38 位 , 是全球最大的搜索引擎和門戶網站。擁有 2.94 億有效注冊用戶，每天 12 億訪問人次，覆蓋全球網民的 61% ；全球有 1840 萬業(yè)務采購決策者訪問 Yahoo! MSN 屬于微軟公司，美國對互聯網瀏覽量進行統(tǒng)計的康姆斯科公司公布統(tǒng)計數據稱：微軟 MSN 網站已接近雅虎，成為繼美國在線之后，網民瀏覽人數排名第二的美國門戶網站。 AOL 即美國在線，是美國也是世界上最早的門戶網站之一， 80% 是美國本土用戶，其搜索結果全部來自于 Google 。也就是說，有良好的 Google 排名也有良好的 AOL 排名。 Lycos 是全世界最早的搜索引擎之一。根據媒體調查統(tǒng)計， Lycos 以月 3700 萬次的獨立訪問排名第 5 大用戶最常訪問的網站。目前， Lycos 主要搜索結果來自于 Alltheweb 。 Ask 規(guī)模不大，但很有特色的搜索搜索。 Ask 是 DirectHit 的母公司，于 2001 年收購 Teoma 搜索引擎，并全部采用 Teoma 搜索結果。 Overture 是最早的付費搜索引擎（競價排名搜索引擎）。搜索結果被 Yahoo, MSN 等采用。 Overture 收購了 Google 的對手 Inktomi 后被 Yahoo 收購，它開通了含約 32 億文檔的 “ 全球最大 ”（ Overture ）的搜索索引服務，也是業(yè)界提供關鍵詞標準流量的公司。 Netscape 由著名的瀏覽器公司網景公司開發(fā)的搜索引擎， Netscape 的搜索結果全部來自于 Google 。另外，全世界最大的開放式目錄 DMOZ 錄屬于網景公司。 AltaVista 全世界最古老的搜索引擎之一，也是功能最完善，搜索精度較高的全文搜索引擎之一。截止 2002 年 6 月， AltaVista 宣稱其數據庫已存有 11 億個 Web 文件，并且經過升級，其搜索精度已達業(yè)界領先水平。該搜索引擎已于 2003 年被 Yahoo 收購。 Inktomi 只對搜索引擎提供搜索結果。 2003 年被 Overture 收購。在 2004 年 Yahoo 開發(fā)自己全新的搜索引擎技術之前， Inktomi 還是全球第二大搜索引擎，其搜索結果被 Hotbot, MSN 等著名的網站采用。 HotBot 是比較活躍的搜索引擎，數據更新速度比其他引擎都快。網頁庫容量為 1.1 億，以獨特的搜索界面著稱。該引擎已被 Lycos 收購，成為 Terra Lycos Network 的一部分。 AllTheWeb 是目前成長最快的搜索引擎，支持 225 種文件格式搜索，其數據庫已存有 49 種語言的 21 億個 Web 文件，而且以其更新速度快，搜索精度高而受到廣泛關注，被認為是 Google 強有力的競爭對手。 LookSmart 與 Yahoo 、 Open Directory Project （ Dmoz ）等齊名的分類目錄搜索引擎，，向包括 MSN 、 AltaVista 、 Excite 提供目錄搜索。在全球擁有相當規(guī)模的商業(yè)客戶資源，并通過與 MSN 、 AltaVista 、 Infospace 等重量級門戶合作，共享資源，使得 LookSmart 成為國內出口企業(yè)進行境外搜索引擎注冊推廣的一條重要渠道。 Infospace 是著名的元搜索引擎。元搜索引擎在接受用戶查詢請求時，同時在其他多個引擎上進行搜索，并將結果返回給用戶。 Infoseek 是全球著名的搜索引擎之一，提供全文檢索功能，并有較細致的分類目錄。網頁收錄極其豐富，以西文為主。 CNN 美國有線新聞網（ CNN ）是美國時代華納旗下的新聞媒體網站。于 2001 年隨時代華納集團并入了美國在線。 CNN 覆蓋了六大洲，成為了歷史上第一個名副其實的全球電視網。參考資料： http://zhidao.baidu.com/question/15786066.html?si=1

以上就是關于能打開各種網站的搜索引擎相關問題的回答。希望能幫到你，如有更多相關問題，您也可以聯系我們的客服進行咨詢，客服也會為您講解更多精彩的知識和內容。