-
當(dāng)前位置:首頁(yè) > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
搜索引擎排名原理(搜索引擎排名原理分析)
大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于搜索引擎排名原理的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。
開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、搜索引擎的原理
搜索引擎原理是非常復(fù)雜的
搜索引擎的工作原理
全文搜索引擎的“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)絡(luò)蜘蛛”是一種網(wǎng)絡(luò)上的軟件,它遍歷Web空間,能夠掃描一定IP地址范圍內(nèi)的網(wǎng)站,并沿著網(wǎng)絡(luò)上的鏈接從一個(gè)網(wǎng)頁(yè)到另一個(gè)網(wǎng)頁(yè),從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站采集網(wǎng)頁(yè)資料。它為保證采集的資料最新,還會(huì)回訪已抓取過(guò)的網(wǎng)頁(yè)。網(wǎng)絡(luò)機(jī)器人或網(wǎng)絡(luò)蜘蛛采集的網(wǎng)頁(yè),還要有其它程序進(jìn)行分析,根據(jù)一定的相關(guān)度算法進(jìn)行大量的計(jì)算建立網(wǎng)頁(yè)索引,才能添加到索引數(shù)據(jù)庫(kù)中。我們平時(shí)看到的全文搜索引擎,實(shí)際上只是一個(gè)搜索引擎系統(tǒng)的檢索界面,當(dāng)你輸入關(guān)鍵詞進(jìn)行查詢時(shí),搜索引擎會(huì)從龐大的數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)的索引,并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎,網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)不同,排名規(guī)則也不盡相同,所以,當(dāng)我們以同一關(guān)鍵詞用不同的搜索引擎查詢時(shí),搜索結(jié)果也就不盡相同。
和全文搜索引擎一樣,分類目錄的整個(gè)工作過(guò)程也同樣分為收集信息、分析信息和查詢信息三部分,只不過(guò)分類目錄的收集、分析信息兩部分主要依靠人工完成。分類目錄一般都有專門的編輯人員,負(fù)責(zé)收集網(wǎng)站的信息。隨著收錄站點(diǎn)的增多,現(xiàn)在一般都是由站點(diǎn)管理者遞交自己的網(wǎng)站信息給分類目錄,然后由分類目錄的編輯人員審核遞交的網(wǎng)站,以決定是否收錄該站點(diǎn)。如果該站點(diǎn)審核通過(guò),分類目錄的編輯人員還需要分析該站點(diǎn)的內(nèi)容,并將該站點(diǎn)放在相應(yīng)的類別和目錄中。所有這些收錄的站點(diǎn)同樣被存放在一個(gè)“索引數(shù)據(jù)庫(kù)”中。用戶在查詢信息時(shí),可以選擇按照關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟全文搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站。需要注意的是,分類目錄的關(guān)鍵詞查詢只能在網(wǎng)站的名稱、網(wǎng)址、簡(jiǎn)介等內(nèi)容中進(jìn)行,它的查詢結(jié)果也只是被收錄網(wǎng)站首頁(yè)的URL地址,而不是具體的頁(yè)面。分類目錄就像一個(gè)電話號(hào)碼薄一樣,按照各個(gè)網(wǎng)站的性質(zhì),把其網(wǎng)址分門別類排在一起,大類下面套著小類,一直到各個(gè)網(wǎng)站的詳細(xì)地址,一般還會(huì)提供各個(gè)網(wǎng)站的內(nèi)容簡(jiǎn)介,用戶不使用關(guān)鍵詞也可進(jìn)行查詢,只要找到相關(guān)目錄,就完全可以找到相關(guān)的網(wǎng)站(注意:是相關(guān)的網(wǎng)站,而不是這個(gè)網(wǎng)站上某個(gè)網(wǎng)頁(yè)的內(nèi)容,某一目錄中網(wǎng)站的排名一般是按照標(biāo)題字母的先后順序或者收錄的時(shí)間順序決定的)。
搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實(shí)際上是預(yù)先整理好的網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。
真正意義上的搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬(wàn)到幾十億個(gè)網(wǎng)頁(yè)并對(duì)網(wǎng)頁(yè)中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫(kù)的全文搜索引擎。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁(yè)面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁(yè)都將作為搜索結(jié)果被搜出來(lái)。在經(jīng)過(guò)復(fù)雜的算法進(jìn)行排序后,這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低,依次排列。
現(xiàn)在的搜索引擎已普遍使用超鏈分析技術(shù),除了分析索引網(wǎng)頁(yè)本身的內(nèi)容,還分析索引所有指向該網(wǎng)頁(yè)的鏈接的URL、AnchorText、甚至鏈接周圍的文字。所以,有時(shí)候,即使某個(gè)網(wǎng)頁(yè)A中并沒(méi)有某個(gè)詞比如“惡魔撒旦”,但如果有別的網(wǎng)頁(yè)B用鏈接“惡魔撒旦”指向這個(gè)網(wǎng)頁(yè)A,那么用戶搜索“惡魔撒旦”時(shí)也能找到網(wǎng)頁(yè)A。而且,如果有越多網(wǎng)頁(yè)(C、D、E、F……)用名為“惡魔撒旦”的鏈接指向這個(gè)網(wǎng)頁(yè)A,或者給出這個(gè)鏈接的源網(wǎng)頁(yè)(B、C、D、E、F……)越優(yōu)秀,那么網(wǎng)頁(yè)A在用戶搜索“惡魔撒旦”時(shí)也會(huì)被認(rèn)為更相關(guān),排序也會(huì)越靠前。
搜索引擎的原理,可以看做三步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)→建立索引數(shù)據(jù)庫(kù)→在索引數(shù)據(jù)庫(kù)中搜索排序。
從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)
利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序,自動(dòng)訪問(wèn)互聯(lián)網(wǎng),并沿著任何網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè),重復(fù)這過(guò)程,并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。
建立索引數(shù)據(jù)庫(kù)
由分析索引系統(tǒng)程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類型、頁(yè)面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。
在索引數(shù)據(jù)庫(kù)中搜索排序
當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。
最后,由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶。
搜索引擎的Spider一般要定期重新訪問(wèn)所有網(wǎng)頁(yè)(各搜索引擎的周期不同,可能是幾天、幾周或幾月,也可能對(duì)不同重要性的網(wǎng)頁(yè)有不同的更新頻率),更新網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù),以反映出網(wǎng)頁(yè)內(nèi)容的更新情況,增加新的網(wǎng)頁(yè)信息,去除死鏈接,并根據(jù)網(wǎng)頁(yè)內(nèi)容和鏈接關(guān)系的變化重新排序。這樣,網(wǎng)頁(yè)的具體內(nèi)容和變化情況就會(huì)反映到用戶查詢的結(jié)果中。
互聯(lián)網(wǎng)雖然只有一個(gè),但各搜索引擎的能力和偏好不同,所以抓取的網(wǎng)頁(yè)各不相同,排序算法也各不相同。大型搜索引擎的數(shù)據(jù)庫(kù)儲(chǔ)存了互聯(lián)網(wǎng)上幾億至幾十億的網(wǎng)頁(yè)索引,數(shù)據(jù)量達(dá)到幾千G甚至幾萬(wàn)G。但即使最大的搜索引擎建立超過(guò)二十億網(wǎng)頁(yè)的索引數(shù)據(jù)庫(kù),也只能占到互聯(lián)網(wǎng)上普通網(wǎng)頁(yè)的不到30%,不同搜索引擎之間的網(wǎng)頁(yè)數(shù)據(jù)重疊率一般在70%以下。我們使用不同搜索引擎的重要原因,就是因?yàn)樗鼈兡芊謩e搜索到不同的內(nèi)容。而互聯(lián)網(wǎng)上有更大量的內(nèi)容,是搜索引擎無(wú)法抓取索引的,也是我們無(wú)法用搜索引擎搜索到的。
你心里應(yīng)該有這個(gè)概念:搜索引擎只能搜到它網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)里儲(chǔ)存的內(nèi)容。你也應(yīng)該有這個(gè)概念:如果搜索引擎的網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)里應(yīng)該有而你沒(méi)有搜出來(lái),那是你的能力問(wèn)題,學(xué)習(xí)搜索技巧可以大幅度提高你的搜索能力。
二、搜索引擎的原理是
真正意義上的搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬(wàn)到幾十億個(gè)網(wǎng)頁(yè)并對(duì)網(wǎng)頁(yè)中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫(kù)的全文搜索引擎。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁(yè)面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁(yè)都將作為搜索結(jié)果被搜出來(lái)。在經(jīng)過(guò)復(fù)雜的算法進(jìn)行排序后,這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低,依次排列。
現(xiàn)在的搜索引擎已普遍使用超鏈分析技術(shù),除了分析索引網(wǎng)頁(yè)本身的內(nèi)容,還分析索引所有指向該網(wǎng)頁(yè)的鏈接的URL、AnchorText、甚至鏈接周圍的文字。所以,有時(shí)候,即使某個(gè)網(wǎng)頁(yè)A中并沒(méi)有某個(gè)詞比如“惡魔撒旦”,但如果有別的網(wǎng)頁(yè)B用鏈接“惡魔撒旦”指向這個(gè)網(wǎng)頁(yè)A,那么用戶搜索“惡魔撒旦”時(shí)也能找到網(wǎng)頁(yè)A。而且,如果有越多網(wǎng)頁(yè)(C、D、E、F……)用名為“惡魔撒旦”的鏈接指向這個(gè)網(wǎng)頁(yè)A,或者給出這個(gè)鏈接的源網(wǎng)頁(yè)(B、C、D、E、F……)越優(yōu)秀,那么網(wǎng)頁(yè)A在用戶搜索“惡魔撒旦”時(shí)也會(huì)被認(rèn)為更相關(guān),排序也會(huì)越靠前。
搜索引擎的原理,可以看做三步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)→建立索引數(shù)據(jù)庫(kù)→在索引數(shù)據(jù)庫(kù)中搜索排序。
三、網(wǎng)站優(yōu)化,關(guān)鍵詞排名原理!
網(wǎng)站優(yōu)化排名是根據(jù),爬行和抓取搜索引擎派出一個(gè)能夠在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁(yè)并抓文件的程序,這個(gè)程序通常稱之為蜘蛛(Spider)。搜索引擎從已知的數(shù)據(jù)庫(kù)出發(fā),就像正常用戶的瀏覽器一樣訪問(wèn)這些網(wǎng)頁(yè)并抓取文件。搜索引擎通過(guò)這些爬蟲去爬互聯(lián)網(wǎng)上的外鏈,從這個(gè)網(wǎng)站爬到另一個(gè)網(wǎng)站,去跟蹤網(wǎng)頁(yè)中的鏈接,訪問(wèn)更多的網(wǎng)頁(yè),這個(gè)過(guò)程就叫爬行。這些新的網(wǎng)址會(huì)被存入數(shù)據(jù)庫(kù)等待搜索。所以跟蹤網(wǎng)頁(yè)鏈接是搜索引擎蜘蛛(Spider)發(fā)現(xiàn)新網(wǎng)址的最基本的方法,所以反向鏈接成為搜索引擎優(yōu)化的最基本因素之一。搜索引擎抓取的頁(yè)面文件與用戶瀏覽器得到的完全一樣,抓取的文件存入數(shù)據(jù)庫(kù)。
建立索引蜘蛛抓取的頁(yè)面文件分解、分析,并以巨大表格的形式存入數(shù)據(jù)庫(kù),這個(gè)過(guò)程即是索引(index).在索引數(shù)據(jù)庫(kù)中,網(wǎng)頁(yè)文字內(nèi)容,關(guān)鍵詞出現(xiàn)的位置、字體、顏色、加粗、斜體等相關(guān)信息都有相應(yīng)記錄。
搜索詞處理用戶在搜索引擎界面輸入關(guān)鍵詞,單擊“搜索”按鈕后,搜索引擎程序即對(duì)搜索詞進(jìn)行處理,如中文特有的分詞處理,去除停止詞,判斷是否需要啟動(dòng)整合搜索,判斷是否有拼寫錯(cuò)誤或錯(cuò)別字等情況。搜索詞的處理必須十分快速。
排序?qū)λ阉髟~處理后,搜索引擎程序便開始工作,從索引數(shù)據(jù)庫(kù)中找出所有包含搜索詞的網(wǎng)頁(yè),并且根據(jù)排名算法計(jì)算出哪些網(wǎng)頁(yè)應(yīng)該排在前面,然后按照一定格式返回到“搜索”頁(yè)面。再好的搜索引擎也無(wú)法與人相比,這就是為什么網(wǎng)站要進(jìn)行搜索引擎優(yōu)化。沒(méi)有SEO的幫助,搜索引擎常常并不能正確的返回最相關(guān)、最權(quán)威、最有用的信息。
在搜索引擎分類部分我們提到過(guò)全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的概念。搜索引擎的自動(dòng)信息搜集功能分兩種。一種是定期搜索,即每隔一段時(shí)間(比如Google一般是28天),搜索引擎主動(dòng)派出“蜘蛛”程序,對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫(kù)。另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動(dòng)向搜索引擎提交網(wǎng)址,它在一定時(shí)間內(nèi)(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫(kù),以備用戶查詢。由于搜索引擎索引規(guī)則發(fā)生了很大變化,主動(dòng)提交網(wǎng)址并不保證你的網(wǎng)站能進(jìn)入搜索引擎數(shù)據(jù)庫(kù),因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機(jī)會(huì)找到你并自動(dòng)將你的網(wǎng)站收錄。當(dāng)用戶以關(guān)鍵詞查找信息時(shí),搜索引擎會(huì)在數(shù)據(jù)庫(kù)中進(jìn)行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁(yè)中關(guān)鍵詞的匹配程度,出現(xiàn)的位置/頻次,鏈接質(zhì)量等——計(jì)算出各網(wǎng)頁(yè)的相關(guān)度及排名等級(jí),然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁(yè)鏈接返回給用戶。
四、象現(xiàn)在很多搜索引擎的原理是什么,比如百度,GOOGLE
一、什么叫搜索引擎?
在Internet上有上百億可用的公共Web頁(yè)面,即使是最狂熱的沖浪者也不會(huì)訪問(wèn)到所有的頁(yè)面,而只能看到其中的一小部分,更不會(huì)在這浩瀚的Web海洋中發(fā)現(xiàn)你那即使精彩卻渺小的一隅。當(dāng)然你可以為你的存在做廣告,可以用大大的字把你的URL刻在你的身體上,然后裸體穿過(guò)白宮草坪,但你得保證媒體正好在那里,并注視到了這一切。與其這樣做,不如好好去理解搜索引擎是如何工作的?又怎樣選擇和使用"keywords"(關(guān)鍵詞)等等。
本文的目的就是讓眾多的頁(yè)面設(shè)計(jì)者在了解搜索引擎的基礎(chǔ)上,尋求如何使自己的頁(yè)面在搜索引擎索返回的列表中獲得好的排列層次的方法。
"搜索引擎"這個(gè)術(shù)語(yǔ)一般統(tǒng)指真正意義上的搜索引擎(也就是全文檢索搜索引擎)和目錄(即目錄式分類搜索引擎),其實(shí)他們是不一樣的,其區(qū)別主要在于返回的搜索結(jié)果列表是如何編排的。
1、目錄
目錄(比如Yahoo!)返回的列表是由人工來(lái)編排的。
這類引擎提供了一份人工按類別編排的網(wǎng)站目錄,各類下邊排列著屬于這一類別的網(wǎng)站的站名和網(wǎng)址鏈接,再記錄一些摘要信息,對(duì)該網(wǎng)站進(jìn)行概述性介紹(摘要可能是你提交過(guò)去的,也可以是引擎站點(diǎn)的編輯為你的站點(diǎn)所做的評(píng)價(jià))。人們搜索時(shí)就按相應(yīng)類別的目錄查詢下去。
這類引擎往往還伴有網(wǎng)站查詢功能,也稱之為網(wǎng)站檢索,即提供一個(gè)文字輸入框和一個(gè)按鈕。我們可以在文字框中輸入要查找的字、詞或短語(yǔ),再點(diǎn)擊按鈕,便會(huì)在目錄中查找相關(guān)的站名、網(wǎng)址和內(nèi)容提要,將查到的內(nèi)容列表送過(guò)來(lái)。目前國(guó)內(nèi)Sohoo、常青藤等都是這種搜索方式。
2、搜索引擎
搜索引擎(如HotBot)是自動(dòng)創(chuàng)建列表的。
搜索引擎看起來(lái)與目錄的網(wǎng)站查詢非常相似,也提供一個(gè)文字輸入框和按鈕,使用方法也相同,而且有些也提供分類目錄,但兩者卻有本質(zhì)上的區(qū)別。
目錄的資料庫(kù)中,搜集保存的是各網(wǎng)站的站名、網(wǎng)址和內(nèi)容提要;搜索引擎的資料庫(kù)中,搜集保存的則是各網(wǎng)站的每一個(gè)網(wǎng)頁(yè)的全部?jī)?nèi)容,范圍要大得多。
搜索引擎是以全文檢索的方式工作的。全文檢索查到的結(jié)果不是站名、網(wǎng)址和內(nèi)容提要,而是與你輸入的關(guān)鍵詞相關(guān)的一個(gè)個(gè)網(wǎng)頁(yè)的地址和一小段文字。在這段文字中,可能沒(méi)有你輸入的那個(gè)關(guān)鍵詞,它只是某一網(wǎng)頁(yè)的第一段話,甚至是一段無(wú)法看懂的標(biāo)記,但在這個(gè)網(wǎng)頁(yè)中,一定有你所輸入的那個(gè)關(guān)鍵詞,或者相關(guān)的詞匯。打個(gè)比方說(shuō),網(wǎng)站查詢可以查到網(wǎng)上有哪些報(bào)紙,如《文匯報(bào)》、《大公報(bào)》,而全文檢索則可以查到網(wǎng)上這些報(bào)紙的每一篇文章中的詞匯。
3、兩者相結(jié)合的搜索引擎
某些搜索引擎同時(shí)也提供目錄。包含在搜索引擎中的目錄通常質(zhì)量比較高,也能從那里找到許多好站點(diǎn)。因?yàn)榧词鼓惆涯愕恼军c(diǎn)提交過(guò)去,也并不能保證一定被加到目錄中去,他們把注意力放在那些已經(jīng)在別的目錄中存在的站點(diǎn)上,并有選擇地尋找有吸引力的加到自己的目錄中。
搜索引擎和目錄各有各自不可替代的功用。目錄比較簡(jiǎn)單,要想獲得一個(gè)好的排列層次,除了你努力創(chuàng)建一個(gè)好內(nèi)容的高品質(zhì)站點(diǎn)外別無(wú)他法。搜索引擎復(fù)雜得多,它們隨時(shí)都在自動(dòng)地索引眾多WEB站點(diǎn)的最新網(wǎng)頁(yè),所以常常會(huì)發(fā)現(xiàn)目錄所不能得到的信息。如果你改動(dòng)了你的頁(yè)面,搜索引擎還隨時(shí)會(huì)發(fā)現(xiàn)這個(gè)變化,并重新排列你在列表中的位置。而目錄就做不到。下面專門討論搜索引擎的工作原理以及如何提高在搜索引擎列表中的排列位置。
參考資料:http://www.yuan.sc.cn/cpc/buildweb/search101.htm
按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類:
1.目錄式搜索引擎:以人工方式或半自動(dòng)方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因?yàn)榧尤肓巳说闹悄埽孕畔?zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。
2.機(jī)器人搜索引擎:由一個(gè)稱為蜘蛛(Spider)的機(jī)器人程序以某種策略自動(dòng)地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫(kù),并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁(yè)的全文檢索服務(wù)。該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù),缺點(diǎn)是返回信息過(guò)多,有很多無(wú)關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;國(guó)內(nèi)代表為:"天網(wǎng)"、悠游、OpenFind等。
3.元搜索引擎:這類搜索引擎沒(méi)有自己的數(shù)據(jù),而是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)搜索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶。服務(wù)方式為面向網(wǎng)頁(yè)的全文檢索。這類搜索引擎的優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更全,缺點(diǎn)是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。這類搜索引擎的代表是WebCrawler、InfoMarket等。
……
主 要 技 術(shù)
一個(gè)搜索引擎由搜索器、索引器、檢索器和用戶接口等四個(gè)部分組成。
1.搜索器
搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它常常是一個(gè)計(jì)算機(jī)程序,日夜不停地運(yùn)行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時(shí)因?yàn)榛ヂ?lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過(guò)的舊信息,以避免死連接和無(wú)效連接。目前有兩種搜集信息的策略:
● 從一個(gè)起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(diǎn)(如Yahoo?。?
● 將Web空間按照域名、IP地址或國(guó)家域名劃分,每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的窮盡搜索。
搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、字處理文檔、多媒體信息。
搜索器的實(shí)現(xiàn)常常用分布式、并行計(jì)算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達(dá)到每天幾百萬(wàn)網(wǎng)頁(yè)。
2.索引器
索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表。
索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種:客觀項(xiàng)與文檔的語(yǔ)意內(nèi)容無(wú)關(guān),如作者名、URL、更新時(shí)間、編碼、長(zhǎng)度、鏈接流行度(Link Popularity)等等;內(nèi)容索引項(xiàng)是用來(lái)反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語(yǔ)、單字等等。內(nèi)容索引項(xiàng)可以分為單索引項(xiàng)和多索引項(xiàng)(或稱短語(yǔ)索引項(xiàng))兩種。單索引項(xiàng)對(duì)于英文來(lái)講是英語(yǔ)單詞,比較容易提取,因?yàn)閱卧~之間有天然的分隔符(空格);對(duì)于中文等連續(xù)書寫的語(yǔ)言,必須進(jìn)行詞語(yǔ)的切分。
在搜索引擎中,一般要給單索引項(xiàng)賦與一個(gè)權(quán)值,以表示該索引項(xiàng)對(duì)文檔的區(qū)分度,同時(shí)用來(lái)計(jì)算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計(jì)法、信息論法和概率法。短語(yǔ)索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語(yǔ)言學(xué)法。
索引表一般使用某種形式的倒排表(Inversion List),即由索引項(xiàng)查找相應(yīng)的文檔。索引表也可能要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系(proximity)。
索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時(shí),必須實(shí)現(xiàn)即時(shí)索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引算法對(duì)索引器的性能(如大規(guī)模峰值查詢時(shí)的響應(yīng)速度)有很大的影響。一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。
3.檢索器
檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓?kù)中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。
檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型四種。
4.用戶接口
用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。用戶接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。 用戶輸入接口可以分為簡(jiǎn)單接口和復(fù)雜接口兩種。
簡(jiǎn)單接口只提供用戶輸入查詢串的文本框;復(fù)雜接口可以讓用戶對(duì)查詢進(jìn)行限制,如邏輯運(yùn)算(與、或、非;+、-)、相近關(guān)系(相鄰、NEAR)、域名范圍(如.edu、.com)、出現(xiàn)位置(如標(biāo)題、內(nèi)容)、信息時(shí)間、長(zhǎng)度等等。目前一些公司和機(jī)構(gòu)正在考慮制定查詢選項(xiàng)的標(biāo)準(zhǔn)。
http://www.userver.cn/n1246c142.aspx
以上就是關(guān)于搜索引擎排名原理相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
國(guó)內(nèi)如何使用google(國(guó)內(nèi)如何使用google搜索)
知乎關(guān)鍵詞排名收藏有用么(知乎關(guān)鍵詞搜索排名)
黑龍江短視頻搜索seo哪家好(黑龍江視頻哪個(gè)網(wǎng)站有)
做一個(gè)門店的廣告牌多少錢(做一個(gè)門店的廣告牌多少錢?。?/a>
杭州下沙工業(yè)園區(qū)屬于哪個(gè)區(qū)(下沙有哪些產(chǎn)業(yè)園)
猜你喜歡
屬于企業(yè)文化傳播規(guī)律包括(屬于企業(yè)文化傳播規(guī)律包括什么)
網(wǎng)絡(luò)營(yíng)銷的本質(zhì)特征是(網(wǎng)絡(luò)營(yíng)銷本質(zhì)特征是互聯(lián)網(wǎng)技術(shù)嗎-)
國(guó)內(nèi)使用google(國(guó)內(nèi)使用Google搜索)
百搜視頻怎么下載電影到手機(jī)(百搜視頻怎么下載電影到手機(jī)相冊(cè))
中國(guó)十大建站公司(中國(guó)十大建站公司排行)
南開自然科學(xué)一等獎(jiǎng)知乎(南開大學(xué)自然科學(xué)一等獎(jiǎng))
教育培訓(xùn)網(wǎng)頁(yè)設(shè)計(jì)(教育培訓(xùn)網(wǎng)頁(yè)設(shè)計(jì)圖片)