-
當(dāng)前位置:首頁(yè) > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
簡(jiǎn)述搜索引擎的基本工作方式(簡(jiǎn)述搜索引擎的基本工作方式有)
大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于簡(jiǎn)述搜索引擎的基本工作方式的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。
開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫(xiě)出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、搜索引擎的工作原理分為
搜索引擎的工作原理簡(jiǎn)單來(lái)說(shuō)可以分為三步:
1、信息采集模塊
信息采集器是一個(gè)可以瀏覽網(wǎng)頁(yè)的程序,被形容為“網(wǎng)絡(luò)爬蟲(chóng)”。它首先打開(kāi)一個(gè)網(wǎng)頁(yè),然后把該網(wǎng)頁(yè)的鏈接作為瀏覽的起始地址,把被鏈接的網(wǎng)頁(yè)獲取過(guò)來(lái),抽取網(wǎng)頁(yè)中出現(xiàn)的鏈接,并通過(guò)一定算法決定下一步要訪問(wèn)哪些鏈接。
同時(shí),信息采集器將已經(jīng)訪問(wèn)過(guò)的URL存儲(chǔ)到自己的網(wǎng)頁(yè)列表并打上已搜索的標(biāo)記。自動(dòng)標(biāo)引程序檢查該網(wǎng)頁(yè)并為他創(chuàng)建一條索引記錄,然后將該記錄加入到整個(gè)查詢表中。信息收集器再以該網(wǎng)頁(yè)到超鏈接為起點(diǎn)繼續(xù)重復(fù)這一訪問(wèn)過(guò)程直至結(jié)束。
一般搜索引擎的采集器在搜索過(guò)程中只取鏈長(zhǎng)比(超鏈接數(shù)目與文檔長(zhǎng)度的比值)小于某一閾值的頁(yè)面,數(shù)據(jù)采集于內(nèi)容頁(yè)面,不涉及目錄頁(yè)面。在采集文檔的同時(shí)記錄各文檔的地址信息、修改時(shí)間、文檔長(zhǎng)度等狀態(tài)信息,用于站點(diǎn)資源的監(jiān)視和資料庫(kù)的更新。
在采集過(guò)程中還可以構(gòu)造適當(dāng)?shù)膯l(fā)策略,指導(dǎo)采集器的搜索路徑和采集范圍,減少文檔采集的盲目性。
2、查詢表模塊
查詢表模塊是一個(gè)全文索引數(shù)據(jù)庫(kù),他通過(guò)分析網(wǎng)頁(yè),排除HTML等語(yǔ)言的標(biāo)記符號(hào),將出現(xiàn)的所有字或詞抽取出來(lái),
并記錄每個(gè)字詞出現(xiàn)的網(wǎng)址及相應(yīng)位置(比如是出現(xiàn)在網(wǎng)頁(yè)標(biāo)題中,還是出現(xiàn)在簡(jiǎn)介或正文中),最后將這些數(shù)據(jù)存入查詢表,成為直接提供給用戶搜索的數(shù)據(jù)庫(kù)。
3、檢索模塊
檢索模塊是實(shí)現(xiàn)檢索功能的程序,其作用是將用戶輸入的檢索表達(dá)式拆分成具有檢索意義的字或詞,再訪問(wèn)查詢表,通過(guò)一定的匹配算法獲得相應(yīng)的檢索結(jié)果。返回的結(jié)果一般根據(jù)詞頻和網(wǎng)頁(yè)鏈接中反映的信息建立統(tǒng)計(jì)模型,按相關(guān)度由高到低的順序輸出。
二、搜索引擎的基本結(jié)構(gòu)以及功能和特點(diǎn)
1. 搜索引擎的基本結(jié)構(gòu)
在網(wǎng)絡(luò)檢索工具發(fā)展的初期,以雅虎為代表的網(wǎng)站分類目錄查詢非常流行,但人們一般只是把基于關(guān)鍵詞檢索類型的網(wǎng)站稱為搜索引擎。隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展和搜索技術(shù)的日臻完善,出現(xiàn)了一批為網(wǎng)絡(luò)用戶所廣泛熟知和習(xí)慣使用的,既具有分類目錄查詢功能,又具有關(guān)鍵詞檢索功能的優(yōu)秀中外通用搜索引擎。但是,任何搜索引擎的設(shè)計(jì),均有其特定的信息索引范圍、獨(dú)特的功能和使用方法,以及預(yù)期的用戶群指向。
搜索引擎(Search Engine)泛指網(wǎng)絡(luò)上以一定的策略搜集信息,對(duì)信息進(jìn)行組織和處理,并為用戶提供信息檢索服務(wù)的工具和系統(tǒng),是網(wǎng)絡(luò)資源檢索工具的總稱,其基本結(jié)構(gòu)為:
(1).查詢界面
查詢界面(query interface)是人們最熟悉的部分。當(dāng)人們提起“搜索引擎”時(shí),想到的通常也是搜索引擎的查詢界面。查詢界面就是用戶訪問(wèn)搜索引擎時(shí)輸入搜索詞的頁(yè)面。
(2).搜索引擎結(jié)果的頁(yè)面
查詢界面的另一個(gè)方案是搜索引擎展示給用戶的另一面,即搜索引擎結(jié)果頁(yè)面(Search Engine Results Pages,SERP)。用戶輸入一個(gè)搜索關(guān)鍵詞或短語(yǔ),單擊Search按鈕后,搜索引擎就在這個(gè)頁(yè)面上顯示搜索的結(jié)果。用戶的網(wǎng)站最終也希望顯示在這些頁(yè)面上,在搜索結(jié)果的排名越高,通過(guò)搜索獲得訪問(wèn)量就越大。
(3).蜘蛛(爬蟲(chóng)、機(jī)器人)
查詢界面和搜索結(jié)果頁(yè)面是用戶唯一能看到的搜索引擎組建。搜索引擎的其他部分都隱藏在后臺(tái),就算天天都在用搜索引擎的人也看不到。藏在幕后的部分并非不重要,恰恰相反,這些看不到的部分才是搜索引擎最重要的部分,它們決定了搜索結(jié)果在前臺(tái)如何顯現(xiàn)。蜘蛛(爬蟲(chóng)、機(jī)器人)在互聯(lián)網(wǎng)抓取網(wǎng)頁(yè),并將其整理成可搜索的數(shù)據(jù),當(dāng)用戶在搜索引擎中進(jìn)行查詢時(shí),搜索引擎就會(huì)搜索數(shù)據(jù)庫(kù)中的相關(guān)信息,并將搜索結(jié)果返回給用戶。
(4).數(shù)據(jù)庫(kù)
每個(gè)搜索引擎都有自己的數(shù)據(jù)庫(kù)系統(tǒng),或是會(huì)連接到某個(gè)數(shù)據(jù)系統(tǒng)。這些數(shù)據(jù)庫(kù)中存放著網(wǎng)絡(luò)中各個(gè)URL的各種信息(由爬蟲(chóng)、蜘蛛或機(jī)器人搜集來(lái)的)。這些數(shù)據(jù)庫(kù)是大規(guī)模存儲(chǔ)區(qū)域,包含每個(gè)URL的多個(gè)數(shù)據(jù)點(diǎn)??梢杂貌煌姆椒ù鎯?chǔ)這些數(shù)據(jù),通常各個(gè)搜索引擎公司還會(huì)有自己的一套方法對(duì)這些數(shù)據(jù)進(jìn)行排序和檢索。
(5).搜索算法
搜索引擎的各個(gè)部分都非常重要,缺一不可,但其中的搜索算法(search algorithm)是使得各個(gè)部分能正常運(yùn)行的關(guān)鍵所在。更確切地說(shuō),搜索算法是構(gòu)建搜索引擎其他各個(gè)部分的基礎(chǔ)。搜索引擎的工作方式是以搜索算法為基礎(chǔ)的,它與用戶發(fā)現(xiàn)數(shù)據(jù)的方式緊密相關(guān)?;\統(tǒng)地說(shuō),搜索算法就是一個(gè)解決問(wèn)題的過(guò)程:提出問(wèn)題,找出若干個(gè)可能的答案,然后將這些答案返回給提出問(wèn)題的人。
(6).檢索和排序
網(wǎng)絡(luò)搜索引擎的數(shù)據(jù)檢索是由蜘蛛、數(shù)據(jù)庫(kù)以及搜索算法共同完成的。這三個(gè)部分相互配合,根據(jù)用戶在搜索引擎用戶界面中輸入的單詞或短語(yǔ),從數(shù)據(jù)庫(kù)中檢索出所需的數(shù)據(jù)。搜索引擎具體的工作方式取決于其所使用的技術(shù)、理論和具體的實(shí)現(xiàn)代碼。真正棘手的事情是搜索結(jié)果的排序。我們將耗費(fèi)大量的時(shí)間和精力,試圖去改變排序的結(jié)果。網(wǎng)頁(yè)在搜索引擎中的排名決定了人們能有多大的幾率訪問(wèn)到該網(wǎng)頁(yè),這無(wú)疑會(huì)影響到包括收益和廣告預(yù)算在內(nèi)的所有事情。不過(guò),想要確切地知道搜索引擎的排序方法幾乎是不可能的。在大部分情況下,所能做的只是根據(jù)搜索結(jié)果,猜測(cè)搜索引擎對(duì)結(jié)果的排序方法,然后據(jù)此修改網(wǎng)頁(yè),從而提高網(wǎng)頁(yè)的排名。
2. 搜索引擎的功能
(1)及時(shí)搜索網(wǎng)絡(luò)信息;
(2)搜索有效的、有價(jià)值的網(wǎng)絡(luò)信息;
(3)有針對(duì)性地搜索網(wǎng)絡(luò)信息。
3.搜索引擎的特點(diǎn)
搜索的特點(diǎn)指的是用戶使用互聯(lián)網(wǎng)的方式,這包括用戶創(chuàng)建搜索詞時(shí)使用的啟發(fā)式方法,以及用戶如何在搜索結(jié)果中做出選擇。搜索引擎的龐大用戶群就是SEO(搜索引擎優(yōu)化)的肥沃土壤。更好地理解用戶使用搜索引擎的方式和原因,以及搜索引擎的工作原理,就能更快捷地實(shí)現(xiàn)SEO。
搜索引擎按不同的分類原則可以有多種分類方式:
(1)按信息標(biāo)引的方式,搜索引擎可以分為目錄式搜索引擎、機(jī)器人搜索引擎和混合式搜索引擎;
(2)按信息查詢的方式,搜索引擎可分為瀏覽式搜索引擎、關(guān)鍵詞搜索引擎、全文搜索引擎、智能搜索引擎;
(3)按語(yǔ)種,搜索引擎又分為單語(yǔ)種搜索引擎、多語(yǔ)種搜索引擎和跨語(yǔ)言搜索引擎等。
(4)按工作方式或者檢索機(jī)制來(lái)劃分,搜索引擎主要可分為目錄型搜索引擎、索引型搜索引擎和元搜索引擎三種類型。
用戶在使用搜索引擎進(jìn)行查詢時(shí),搜索引擎并不是直接去搜索互聯(lián)網(wǎng),它實(shí)際上搜索的是已經(jīng)預(yù)先整理好的網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。搜索引擎會(huì)預(yù)先收集因特網(wǎng)上幾千萬(wàn)到幾十億個(gè)網(wǎng)頁(yè),對(duì)網(wǎng)頁(yè)中的關(guān)鍵詞進(jìn)行索引,建立索引數(shù)據(jù)庫(kù)。當(dāng)用戶查找某項(xiàng)內(nèi)容的時(shí)候,所有在數(shù)據(jù)庫(kù)中保存的相關(guān)網(wǎng)頁(yè)都將被搜索出來(lái),再按照某種算法進(jìn)行排序后,將相關(guān)鏈接作為搜索結(jié)果呈現(xiàn)給用戶。
4.未來(lái)搜索引擎的發(fā)展方向?qū)②呄蛴趥€(gè)性化與智能化等方面
隨著網(wǎng)民應(yīng)用互聯(lián)網(wǎng)熟練水平的進(jìn)步以及互聯(lián)網(wǎng)技巧的不斷發(fā)展,未來(lái)的搜索引擎必定向個(gè)性化、智能化、專業(yè)化、多媒體、移動(dòng)搜索等幾個(gè)方向發(fā)展。
1.個(gè)性化搜索:搜索會(huì)根據(jù)不同的用戶提供不同的內(nèi)容,“投其所好”。從用戶的社會(huì)網(wǎng)絡(luò)、地理位置、行為紀(jì)錄會(huì)得到更多信息幫助加深對(duì)用戶的理解,使個(gè)性化搜索變得更加可能。 SEO在履行時(shí)與通用搜索最大的差別是需增強(qiáng)數(shù)據(jù)剖析才能和對(duì)行業(yè)的了解,推測(cè)不同用戶的搜索習(xí)慣和心理需求。
2.自然語(yǔ)言搜索:自然語(yǔ)言搜索是搜索智能化的一個(gè)體現(xiàn),搜索會(huì)變得更加自然,搜索引擎會(huì)變成用戶的“信息仆人”。用戶可以用自己認(rèn)為最自然的方式搜索,比如關(guān)鍵詞、自然語(yǔ)言問(wèn)句、以及其組合。搜索不再是“一錘子買賣”,而是與用戶的交互;優(yōu)化的重點(diǎn)將不再是要害字,而是讓網(wǎng)站更自然的與用戶“對(duì)話”,正確及時(shí)的“答復(fù)”用戶的搜索問(wèn)題。
3.垂直搜索、行業(yè)搜索:專門(mén)收錄某一行業(yè)、某一主題和某一地域的信息而樹(shù)立。SEO在履行時(shí)與通用搜索最大的差別是:由于是針對(duì)某個(gè)行業(yè),所以在搜索算法上更多的是斟酌行業(yè)內(nèi)用戶的需求,應(yīng)當(dāng)更重視行業(yè)內(nèi)的及時(shí)信息和行業(yè)內(nèi)網(wǎng)站的互動(dòng)。所以作為SEOER應(yīng)該更高深進(jìn)的懂得某個(gè)行業(yè)和最大化應(yīng)用該行業(yè)資源。
4.多媒體搜索:未來(lái)的互聯(lián)網(wǎng)是多媒體數(shù)據(jù)的時(shí)期,將來(lái)有可能呈現(xiàn)查尋圖片、聲音、電影和flash網(wǎng)站設(shè)計(jì)的搜索引擎。此項(xiàng)搜索技術(shù)目前利用最廣的在視頻搜索范疇,其中多媒體文件是以嵌套文件的情勢(shì)在網(wǎng)頁(yè)內(nèi)部顯示,與通用搜索相比,群體分類將更加過(guò)細(xì),SEO能更準(zhǔn)確的把握不同喜好用戶的需求。
5.移動(dòng)搜索:雖然在臺(tái)式機(jī)、智能手機(jī)、平板電腦、電視屏幕等各種終端上的搜索都會(huì)增加,但是搜索的主要終端將從臺(tái)式機(jī)轉(zhuǎn)變?yōu)橹悄苁謾C(jī)、平板電腦等移動(dòng)設(shè)備,通過(guò)語(yǔ)音與觸摸屏的搜索會(huì)更加普遍。移動(dòng)搜索也將是未來(lái)搜索競(jìng)爭(zhēng)最為激烈的。
三、百度搜索引擎工作原理是什么,試寫(xiě)出流程
你好!
搜索引擎的工作原理包括如下三個(gè)過(guò)程:首先在互聯(lián)中發(fā)現(xiàn)、搜集網(wǎng)頁(yè)信息;同時(shí)對(duì)信息進(jìn)行提取和組織建立索引庫(kù);再由檢索器根據(jù)用戶輸入的查詢關(guān)鍵字,在索引庫(kù)中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并將查詢結(jié)果返回給用戶。
1、抓取網(wǎng)頁(yè)。每個(gè)獨(dú)立的搜索引擎都有自己的網(wǎng)頁(yè)抓取程序(spider)。Spider順著網(wǎng)頁(yè)中的超鏈接,連續(xù)地抓取網(wǎng)頁(yè)。被抓取的網(wǎng)頁(yè)被稱之為網(wǎng)頁(yè)快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁(yè)出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁(yè)。
發(fā)現(xiàn)、抓取網(wǎng)頁(yè)信息需要有高性能的“網(wǎng)絡(luò)蜘蛛”程序(Spider)去自動(dòng)地在互聯(lián)網(wǎng)中搜索信息。一個(gè)典型的網(wǎng)絡(luò)蜘蛛工作的方式,是查看一個(gè)頁(yè)面,并從中找到相關(guān)信息,然后它再?gòu)脑擁?yè)面的所有鏈接中出發(fā),繼續(xù)尋找相關(guān)的信息,以此類推,直至窮盡。網(wǎng)絡(luò)蜘蛛要求能夠快速、全面。網(wǎng)絡(luò)蜘蛛為實(shí)現(xiàn)其快速地瀏覽整個(gè)互聯(lián)網(wǎng),通常在技術(shù)上采用搶先式多線程技術(shù)實(shí)現(xiàn)在網(wǎng)上聚集信息。通過(guò)搶先式多線程的使用,你能索引一個(gè)基于URL鏈接的Web頁(yè)面,啟動(dòng)一個(gè)新的線程跟隨每個(gè)新的URL鏈接,索引一個(gè)新的URL起點(diǎn)。當(dāng)然在服務(wù)器上所開(kāi)的線程也不能無(wú)限膨脹,需要在服務(wù)器的正常運(yùn)轉(zhuǎn)和快速收集網(wǎng)頁(yè)之間找一個(gè)平衡點(diǎn)。在算法上各個(gè)搜索引擎技術(shù)公司可能不盡相同,但目的都是快速瀏覽Web頁(yè)和后續(xù)過(guò)程相配合。目前國(guó)內(nèi)的搜索引擎技術(shù)公司中,比如百度公司的網(wǎng)絡(luò)蜘蛛采用了可定制、高擴(kuò)展性的調(diào)度算法使得搜索器能在極短的時(shí)間內(nèi)收集到最大數(shù)量的互聯(lián)網(wǎng)信息,并把所獲得的信息保存下來(lái)以備建立索引庫(kù)和用戶檢索。
2、處理網(wǎng)頁(yè)。搜索引擎抓到網(wǎng)頁(yè)后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引庫(kù)和索引。其他還包括去除重復(fù)網(wǎng)頁(yè)、分詞(中文)、判斷網(wǎng)頁(yè)類型、分析超鏈接、計(jì)算網(wǎng)頁(yè)的重要度/豐富度等。
索引庫(kù)的建立關(guān)系到用戶能否最迅速地找到最準(zhǔn)確、最廣泛的信息,同時(shí)索引庫(kù)的建立也必須迅速,對(duì)網(wǎng)絡(luò)蜘蛛抓來(lái)的網(wǎng)頁(yè)信息極快地建立索引,保證信息的及時(shí)性。對(duì)網(wǎng)頁(yè)采用基于網(wǎng)頁(yè)內(nèi)容分析和基于超鏈分析相結(jié)合的方法進(jìn)行相關(guān)度評(píng)價(jià),能夠客觀地對(duì)網(wǎng)頁(yè)進(jìn)行排序,從而極大限度地保證搜索出的結(jié)果與用戶的查詢串相一致。新浪搜索引擎對(duì)網(wǎng)站數(shù)據(jù)建立索引的過(guò)程中采取了按照關(guān)鍵詞在網(wǎng)站標(biāo)題、網(wǎng)站描述、網(wǎng)站URL等不同位置的出現(xiàn)或網(wǎng)站的質(zhì)量等級(jí)等建立索引庫(kù),從而保證搜索出的結(jié)果與用戶的查詢串相一致。新浪搜索引擎在索引庫(kù)建立的過(guò)程中,對(duì)所有數(shù)據(jù)采用多進(jìn)程并行的方式,對(duì)新的信息采取增量式的方法建立索引庫(kù),從而保證能夠迅速建立索引,使數(shù)據(jù)能夠得到及時(shí)的更新。
3、提供檢索服務(wù)。用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫(kù)中找到匹配該關(guān)鍵詞的網(wǎng)頁(yè);為了用戶便于判斷,除了網(wǎng)頁(yè)標(biāo)題和URL外,還會(huì)提供一段來(lái)自網(wǎng)頁(yè)的摘要以及其他信息。
用戶檢索的過(guò)程是對(duì)前兩個(gè)過(guò)程的檢驗(yàn),檢驗(yàn)該搜索引擎能否給出最準(zhǔn)確、最廣泛的信息,檢驗(yàn)該搜索引擎能否迅速地給出用戶最想得到的信息。對(duì)于網(wǎng)站數(shù)據(jù)的檢索,新浪搜索引擎采用多進(jìn)程的方式在索引庫(kù)中檢索,大大減少了用戶的等待時(shí)間,并且在用戶查詢高峰時(shí)服務(wù)器的負(fù)擔(dān)不會(huì)過(guò)高(平均的檢索時(shí)間在0.3秒左右)。對(duì)于網(wǎng)頁(yè)信息的檢索,作為國(guó)內(nèi)眾多門(mén)戶網(wǎng)站的網(wǎng)頁(yè)檢索技術(shù)提供商的百度公司其搜索引擎運(yùn)用了先進(jìn)的多線程技術(shù),采用高效的搜索算法和穩(wěn)定的UNIX平臺(tái),因此可大大縮短對(duì)用戶搜索請(qǐng)求的響應(yīng)時(shí)間。作為慧聰I系列應(yīng)用軟件產(chǎn)品之一的I-Search4000采用的超大規(guī)模動(dòng)態(tài)緩存技術(shù),使一級(jí)響應(yīng)的覆蓋率達(dá)到75%以上,獨(dú)有的自學(xué)能力可自動(dòng)將二級(jí)響應(yīng)的覆蓋率擴(kuò)充到20%以上。
我現(xiàn)在是在搜外網(wǎng)上學(xué)習(xí),他們網(wǎng)站上有很多免費(fèi)的視頻教程可以學(xué),建議去看看!
四、中國(guó)搜索引擎檢索的主要方式有哪兩種?
現(xiàn)有的搜索引擎基本上分為三類:
1.1 single search engine(獨(dú)立搜索引擎) 它的特點(diǎn)是僅在搜索引擎自身的數(shù)據(jù)庫(kù)檢索信息,比如Yahoo。
1.2 Meta search engine(元搜索引擎) 它在檢索信息時(shí)通過(guò)調(diào)用其它多個(gè)獨(dú)立的搜索引擎來(lái)完成檢索功能,并且能夠?qū)亩鄠€(gè)獨(dú)立搜索引擎查詢的結(jié)果進(jìn)行不同程度的處理,比如刪除重復(fù)結(jié)果、校驗(yàn)連接、結(jié)果按照相關(guān)度排序等。元搜索引擎本身可以有也可以沒(méi)有自己的數(shù)據(jù)庫(kù)。由于不同的元搜索引擎掛接的獨(dú)立搜索引擎各不相同,且各自獨(dú)立的搜索引擎在查詢語(yǔ)法上的差別較大,使得元搜索引擎本身僅支持AND、0R、N0T等簡(jiǎn)單的語(yǔ)法操作,返回的結(jié)果只能滿足“最低常用分母”,即不能提高搜索結(jié)果的準(zhǔn)確性。
1.3 Net search engine(網(wǎng)絡(luò)搜索軟件) 就是網(wǎng)絡(luò)用戶可以將相應(yīng)的搜索軟件下載至本地的計(jì)算機(jī)上,安裝查詢,這是一種具有網(wǎng)絡(luò)查詢功能的離線瀏覽器。相對(duì)于元搜索引擎,它可以靈活地控制輸出結(jié)果,其最大特點(diǎn)是方便用戶使用和能快速地查詢網(wǎng)絡(luò)相關(guān)資源。2 網(wǎng)絡(luò)搜索引擎的工作原理及其基本構(gòu)成
用戶檢索信息時(shí),搜索引擎是根據(jù)用戶的查詢要求,按照一定的算法從索引數(shù)據(jù)庫(kù)中查找對(duì)應(yīng)的信息返回給用戶。為了保證用戶查找信息的精度和新鮮度。對(duì)于獨(dú)立的搜索引擎而言.還需要建立并維護(hù)一個(gè)龐大的數(shù)據(jù)庫(kù)。獨(dú)立搜索引擎中的索引數(shù)據(jù)庫(kù)中的信息是通過(guò)一種叫做網(wǎng)絡(luò)蜘蛛(spider)的程序軟件定期在網(wǎng)上爬行,通過(guò)訪問(wèn)公共網(wǎng)絡(luò)中公開(kāi)區(qū)域的每一個(gè)站點(diǎn)采集網(wǎng)頁(yè),對(duì)網(wǎng)絡(luò)信息資源進(jìn)行收集,然后利用索引軟件對(duì)收集的信息進(jìn)行自動(dòng)標(biāo)引,創(chuàng)建一個(gè)可供用戶按照關(guān)鍵字等進(jìn)行查詢的web頁(yè)索引數(shù)據(jù)庫(kù),搜索軟件通過(guò)索引數(shù)據(jù)庫(kù)為用戶提供查詢服務(wù)。所以,一般的搜索引擎主要由網(wǎng)絡(luò)蜘蛛、索引和搜索軟件三部分組成.
網(wǎng)絡(luò)蜘蛛。是一個(gè)功能很強(qiáng)的程序,它會(huì)定期根據(jù)預(yù)先設(shè)定的地址去查看對(duì)應(yīng)的網(wǎng)頁(yè),如網(wǎng)頁(yè)發(fā)生變化則重新獲取該網(wǎng)頁(yè),否則根據(jù)該網(wǎng)頁(yè)中的鏈接繼續(xù)去訪問(wèn)。網(wǎng)絡(luò)蜘蛛訪問(wèn)頁(yè)面的過(guò)程是對(duì)互連網(wǎng)上信息遍歷的過(guò)程。為了保證網(wǎng)絡(luò)蜘蛛遍歷信息的廣度,一般事先設(shè)定_ 些重要的鏈接,然后進(jìn)行遍歷。在遍歷的過(guò)程中不斷記錄網(wǎng)頁(yè)中的鏈接,不斷地遍歷下去,直到訪問(wèn)完所有的鏈接。
索引軟件。網(wǎng)絡(luò)蜘蛛將遍歷搜索集得到的網(wǎng)頁(yè)存放在數(shù)據(jù)庫(kù)中。為了提高檢索的效率,需要建立索引。索引一般為倒排檔索引。
搜索軟件。該軟件用于篩選索引數(shù)據(jù)庫(kù)中無(wú)數(shù)的網(wǎng)頁(yè)信息,選擇出符合用戶檢索要求的網(wǎng)頁(yè)并對(duì)它們進(jìn)行分級(jí)排序。然后將分級(jí)排序后的結(jié)果顯示給用戶。
3 搜索引擎的主要性能評(píng)價(jià)指標(biāo)
3.1 搜索引擎建立索引的方法 數(shù)據(jù)庫(kù)中的索引一般是按照倒排文檔的文件格式存放,在建立例排索引的時(shí)候,不同的搜索引擎有不同的選項(xiàng)。有些搜索引擎對(duì)于信息頁(yè)面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;還有些搜索引擎,比如Google建立索引的時(shí)候,同時(shí)還考慮超文本的不同標(biāo)記所表示的不同含義。如粗體、大字體顯示的東西往往比較重要;放在錨鏈中的信息往往是它所指向頁(yè)面的信息的概括,所以用它來(lái)作為所指向的頁(yè)面的重要信息。Google、infoseek還在建立索引的過(guò)程中收集頁(yè)面中的超鏈接。這些超鏈接反映了收集到的信息之間的空間結(jié)構(gòu),利用這些結(jié)果信息可以提高頁(yè)面相關(guān)度判別時(shí)的準(zhǔn)確度。由于索引不同,在檢索信息時(shí)產(chǎn)生的結(jié)果會(huì)不同。
3.2 搜索引擎的檢索功能搜索引擎所支持的檢索功能的多少及其實(shí)現(xiàn)的優(yōu)劣,直接決定了檢索效果的好壞,所以網(wǎng)絡(luò)檢索工具除了要支持諸如布爾檢索、鄰近檢索、截詞檢索、字段檢索等基本的檢索功能之外,更應(yīng)該根據(jù)網(wǎng)上信息資源的變化,及時(shí)地應(yīng)用新技術(shù)、新方法,提高高級(jí)檢索功能。另外,由于中文信息特有的編碼不統(tǒng)一問(wèn)題,所以如果搜索引擎能夠?qū)崿F(xiàn)不同內(nèi)碼之間的自動(dòng)轉(zhuǎn)換,用戶就會(huì)全面檢索大陸、港臺(tái)乃至全世界的中文信息。這樣不但提高了搜索引擎的質(zhì)量,而且會(huì)得到用戶的支持。
3.3 搜索引擎的檢索效果 檢索效果可以從響應(yīng)時(shí)間、查全率、查準(zhǔn)率和相關(guān)度方面來(lái)衡量。響應(yīng)時(shí)間是用戶輸入檢索式開(kāi)始查詢到檢出結(jié)果的時(shí)間。查全率是指一次搜索結(jié)果中符合用戶要求的數(shù)目與和用戶查詢相關(guān)的總數(shù)之比;查準(zhǔn)率是指一次搜索結(jié)果集中符合用戶要求的數(shù)目與該次搜索結(jié)果總數(shù)之比;相似度是指用戶查詢與搜索結(jié)果之間相似度的一種度量。雖然由于無(wú)法估計(jì)網(wǎng)絡(luò)上與某個(gè)檢索提問(wèn)相關(guān)的所有信息數(shù)量。所以目前尚沒(méi)有定量計(jì)算查全率的更好方法,但是它作為評(píng)價(jià)檢索效果的指標(biāo)還是值得保留。查準(zhǔn)率也是一個(gè)復(fù)雜的概念,一方面表示搜索引擎對(duì)搜索結(jié)果的排序,另一方面卻體現(xiàn)了搜索引擎對(duì)垃圾網(wǎng)頁(yè)的抗干擾能力??傊?,一個(gè)好的搜索引輦應(yīng)該具有較快的響應(yīng)速度和高的查全率和查準(zhǔn)率,或者有極大的相似度。
3.4 搜索引擎的受歡迎程度 搜索引擎的受歡迎程度體現(xiàn)了用戶對(duì)于搜索引擎的偏愛(ài)程度,知名度高、性能穩(wěn)定和搜索質(zhì)量好的搜索引擎很受用戶的青睞。搜索引擎的受歡迎程度也會(huì)隨著它的知名度和服務(wù)水平的變化而動(dòng)態(tài)的變化。搜索引擎的服務(wù)水平和它所收集的信息量、信息的新鮮度和查詢的精度相關(guān)。隨著各種新的搜索技術(shù)的出現(xiàn),智能化的、支持多媒體檢索的搜索引擎將越來(lái)越受用戶的歡迎。
另外,搜索引擎的信息占有量也可以作為評(píng)價(jià)搜索引擎性能的指標(biāo)。綜上所述,評(píng)價(jià)搜索引擎的性能指標(biāo)可以概括為:a.建立索引的方法(全文索引,部分索引,按重要程度索引等);b.檢索功能(支持的檢索技術(shù),多媒體檢索,內(nèi)碼處理等);C.查詢效果(響應(yīng)時(shí)間,查全率,查準(zhǔn)率,相關(guān)度);d.受歡迎程度;e.信息占有量。4 搜索引擎檢索信息的局限
2001年Roper的調(diào)查指出,36% 的互連網(wǎng)用戶一個(gè)星期花超過(guò)2個(gè)小時(shí)的時(shí)間在網(wǎng)上搜索;71% 的用戶在使用搜索引擎時(shí)遇到過(guò)麻煩;平均搜索12分鐘以后發(fā)現(xiàn)搜索受挫。另一項(xiàng)由Keen所做的調(diào)查顯示,31% 的人使用搜索引擎尋找答案,網(wǎng)上查找答案的半數(shù)以上都不成功。從這些調(diào)查數(shù)據(jù)中不難看出。目前的搜索引擎仍然存在不少的局限性。概括起來(lái)大致有以下幾個(gè)方面。
4.1 搜索引擎對(duì)信息的標(biāo)引深度不夠 目前,搜索引擎檢索的結(jié)果往往只提供一些線形的網(wǎng)址和包括關(guān)鍵詞的網(wǎng)頁(yè)信息,與人們對(duì)它的預(yù)期存在較大的距離,或者返回過(guò)多的無(wú)用信息,或者信息丟失,特別是對(duì)特定的文獻(xiàn)數(shù)據(jù)庫(kù)的檢索顯得無(wú)能為力。
4.2 搜索引擎的信息量占有不足 作為搜索引擎必須占有相當(dāng)大的信息量才能具有一定的查全率和實(shí)用性。目前還沒(méi)有一種覆蓋整個(gè)因特網(wǎng)信息資源的搜索引擎。
4.3 搜索引擎的查準(zhǔn)率不高 分析起來(lái),這是因?yàn)椋阂环矫嬗捎诰W(wǎng)上信息數(shù)量巨大、內(nèi)容龐大、良莠不齊,信息的質(zhì)量得不到保障;另一方面是由于大多數(shù)搜索引擎的索引工作由程序自動(dòng)完成,根據(jù)網(wǎng)頁(yè)中詞頻及詞的位置等因素確定關(guān)鍵詞,有的網(wǎng)站為了提高點(diǎn)擊率,將一些與網(wǎng)頁(yè)主題并不相關(guān)的熱門(mén)詞匯以隱含方式放在頁(yè)面上,并重復(fù)多次,從而造成查準(zhǔn)率低。
4.4 檢索功能單一,缺乏靈活性 目前許多搜索引擎的查詢方法比較單一,一般只提供分類查詢方式和關(guān)鍵詞查詢方式。不能從文獻(xiàn)的多個(gè)方面對(duì)檢索提問(wèn)進(jìn)行限制,只能就某一關(guān)鍵詞或者概念進(jìn)行籠統(tǒng)的檢索。
4.5 搜索引擎自身的技術(shù)局限像目前部分搜索引擎還不能支持對(duì)多媒體信息的檢索。造成上述信息檢索困難的原因?qū)嵸|(zhì)在于搜索引擎對(duì)要檢索的信息僅僅采用機(jī)械的詞語(yǔ)匹配來(lái)實(shí)現(xiàn),缺乏知識(shí)處理能力和理解能力。也就是說(shuō)搜索引擎無(wú)法處理用戶看來(lái)是非常普通的常識(shí)性知識(shí),更不能處理隨用戶不同而變化的個(gè)性化知識(shí)、隨地域不同而變化的區(qū)域性知識(shí)以及隨領(lǐng)域不同而變化的專業(yè)性知識(shí)等等。5 搜索引擎未來(lái)的發(fā)展趨勢(shì)
新一代搜索引擎的發(fā)展目標(biāo)就是采用新興的搜索技術(shù)為用戶提供更方便易用、更精確的搜索工具來(lái)滿足用戶的信息查詢需要。技術(shù)上,應(yīng)該在自然語(yǔ)言理解技術(shù)上有所突破,以XML可擴(kuò)展標(biāo)記語(yǔ)言為主,并使用向?qū)Ъ夹g(shù)。下面就搜索引擎的發(fā)展趨勢(shì)談幾點(diǎn)看法。
<strong>答案補(bǔ)充</strong>
5.1 垂直化專業(yè)領(lǐng)域搜索 由于社會(huì)分工的加大,用戶從事的職業(yè)有所不同,不同用戶對(duì)信息搜索也往往有自己的專業(yè)要求。由于綜合性的搜索引擎收錄各方面、各學(xué)科、各行業(yè)的信息,因而搜索不相關(guān)的信息太多,專業(yè)垂直引擎則可以解決這個(gè)問(wèn)題,垂直類搜索引擎是只面向某一特定的領(lǐng)域,專注于自己的特長(zhǎng)和核心技術(shù),能夠保證對(duì)該領(lǐng)域信息的完全收錄與及時(shí)更新。因此,基于專業(yè)領(lǐng)域的“垂直搜索引擎”開(kāi)始成為搜索引擎發(fā)展的一個(gè)新趨勢(shì)。
5.2 智能化搜索 傳統(tǒng)的搜索引擎使用方法是被動(dòng)搜索,而準(zhǔn)確的搜索應(yīng)建立在對(duì)收錄信息和搜索請(qǐng)求的理解之上。顯然,基于自然語(yǔ)言理解技術(shù)的搜索引擎由于可以同用戶使用自然語(yǔ)言交談,并深刻理解用戶的搜索請(qǐng)求,則查詢的結(jié)果更
加準(zhǔn)確。
5.3 關(guān)聯(lián)式的綜合搜索 所謂關(guān)聯(lián)式綜合搜索,是這樣一種一站式的搜索服務(wù),它使得用戶在搜索時(shí)只需要輸入一次查詢目標(biāo),即可以在同一界面得到各種有關(guān)聯(lián)的查詢結(jié)果,這種服務(wù)的關(guān)鍵在于有一架構(gòu)在XML基礎(chǔ)上的整合資訊平臺(tái)。<strong>答案補(bǔ)充</strong>
5.4 個(gè)性化搜索 提高搜索精確度的另一個(gè)途徑是提供個(gè)性化的搜索,也就是將搜索建立在個(gè)性化的搜索環(huán)境之下,其核心是跟蹤用戶的搜索行為,通過(guò)對(duì)用戶的不斷了解、分析,積累用戶的搜索個(gè)性化數(shù)據(jù)來(lái)提高用戶的搜索效率。
5.5 結(jié)構(gòu)化搜索 所謂結(jié)構(gòu)化搜索,是指充分利用XML等技術(shù)使信息結(jié)構(gòu)化,同時(shí)使用查詢結(jié)構(gòu)化,從而使搜索的準(zhǔn)確度大大提高。
5.6 本土化的搜索 世界上許多著名的搜索引擎都在美國(guó),它們以英語(yǔ)為基礎(chǔ),完全按他們的思維方式和觀點(diǎn)搜集和檢索資料,這對(duì)于全球不同國(guó)家的用戶來(lái)說(shuō)是顯然不合適的。各國(guó)的文化傳統(tǒng)、思維方式和生活習(xí)慣不同,在對(duì)于網(wǎng)站的內(nèi)容的搜索要求上也就存在差異。搜索結(jié)果要符合當(dāng)?shù)赜脩舻囊?,搜索引擎就必須本土化?/p>
5.7 多媒體搜索。隨著寬帶技術(shù)的發(fā)展,未來(lái)的互聯(lián)網(wǎng)是多媒體數(shù)據(jù)的時(shí)代,開(kāi)發(fā)出可查詢圖像、聲音、圖片和電影的搜索引擎是一個(gè)新的方向,這也將極大地滿足用戶的需求。未來(lái)的搜索引擎應(yīng)該信息量更大、搜索速度更快、搜索精度更高和更能夠滿足用戶的信息查詢需求。
以上就是關(guān)于簡(jiǎn)述搜索引擎的基本工作方式相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
簡(jiǎn)述詳情頁(yè)設(shè)計(jì)思路(簡(jiǎn)述詳情頁(yè)設(shè)計(jì)思路)
公民基本道德規(guī)范的主要內(nèi)容(簡(jiǎn)述我國(guó)公民基本道德規(guī)范的主要內(nèi)容)
景觀設(shè)計(jì)小品簡(jiǎn)述(景觀設(shè)計(jì)小品簡(jiǎn)述范文)
視頻剪輯可以賺錢(qián)嗎(剪輯視頻怎么賺錢(qián)怎么做)
杭州java開(kāi)發(fā)(杭州java開(kāi)發(fā)哪些公司可以去)