-
當前位置:首頁 > 創(chuàng)意學院 > 營銷推廣 > 專題列表 > 正文
搜索引擎主要包括三個部分(搜索引擎主要包括三個部分是什么)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于搜索引擎主要包括三個部分的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
ChatGPT國內(nèi)免費在線使用,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準,寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com
本文目錄:
一、搜索引擎包括哪些部分?
搜索引擎包括Web服務器、結(jié)果數(shù)據(jù)庫、檢索式處理、Web處理接口、結(jié)果生成等幾個部分
二、搜索引擎分為幾類
可分為三種 搜索引擎分類 搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。 全文搜索引擎 全文搜索引擎是名副其實的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內(nèi)著名的有百度(Baidu)。它們都是通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎。 從搜索結(jié)果來源的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,并自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,如上面提到的7家引擎;另一種則是租用其他引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos引擎。 目錄索引 目錄索引雖然有搜索功能,但在嚴格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不用進行關(guān)鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo雅虎。其他著名的還有Open Directory Project(DMOZ)、LookSmart、About等。國內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。 元搜索引擎(META Search Engine) 元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源引擎排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。 除上述三大類引擎外,還有以下幾種非主流形式: 集合式搜索引擎:如HotBot在2002年底推出的引擎。該引擎類似META搜索引擎,但區(qū)別在于不是同時調(diào)用多個引擎進行搜索,而是由用戶從提供的4個引擎當中選擇,因此叫它“集合式”搜索引擎更確切些。 門戶搜索引擎:如AOL Search、MSN Search等雖然提供搜索服務,但自身即沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結(jié)果完全來自其他引擎。 免費鏈接列表(Free For All Links,簡稱FFA):這類網(wǎng)站一般只簡單地滾動排列鏈接條目,少部分有簡單的分類目錄,不過規(guī)模比起Yahoo等目錄索引來要小得多。 由于上述網(wǎng)站都為用戶提供搜索查詢服務,為方便起見,我們通常將其統(tǒng)稱為搜索引擎。 搜索引擎基本工作原理 了解搜索引擎的工作原理對我們?nèi)粘K阉鲬煤途W(wǎng)站提交推廣都會有很大幫助。 全文搜索引擎 在搜索引擎分類部分我們提到過全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁數(shù)據(jù)庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出“蜘蛛”程序,對一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。 另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動向搜索引擎提交網(wǎng)址,它在一定時間內(nèi)(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫,以備用戶查詢。由于近年來搜索引擎索引規(guī)則發(fā)生了很大變化,主動提交網(wǎng)址并不保證你的網(wǎng)站能進入搜索引擎數(shù)據(jù)庫,因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機會找到你并自動將你的網(wǎng)站收錄。 當用戶以關(guān)鍵詞查找信息時,搜索引擎會在數(shù)據(jù)庫中進行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度,出現(xiàn)的位置/頻次,鏈接質(zhì)量等——計算出各網(wǎng)頁的相關(guān)度及排名等級,然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁鏈接返回給用戶。 目錄索引 與全文搜索引擎相比,目錄索引有許多不同之處。 首先,搜索引擎屬于自動網(wǎng)站檢索,而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后,目錄編輯人員會親自瀏覽你的網(wǎng)站,然后根據(jù)一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的網(wǎng)站。 其次,搜索引擎收錄網(wǎng)站時,只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則,一般都能登錄成功。而目錄索引對網(wǎng)站的要求則高得多,有時即使登錄多次也不一定成功。尤其象Yahoo!這樣的超級索引,登錄更是困難。(由于登錄Yahoo!的難度最大,而它又是商家網(wǎng)絡(luò)營銷必爭之地,所以我們會在后面用專門的篇幅介紹登錄Yahoo雅虎的技巧) 此外,在登錄搜索引擎時,我們一般不用考慮網(wǎng)站的分類問題,而登錄目錄索引時則必須將網(wǎng)站放在一個最合適的目錄(Directory)。 最后,搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁中自動提取的,所以用戶的角度看,我們擁有更多的自主權(quán);而目錄索引則要求必須手工另外填寫網(wǎng)站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適,他可以隨時對其進行調(diào)整,當然事先是不會和你商量的。 目錄索引,顧名思義就是將網(wǎng)站分門別類地存放在相應的目錄中,因此用戶在查詢信息時,可選擇關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網(wǎng)站的排名則是由標題字母的先后順序決定(也有例外)。 目前,搜索引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢。而象 Yahoo! 這些老牌目錄索引則通過與Google等搜索引擎合作擴大搜索范圍。在默認搜索模式下,一些目錄類搜索引擎首先返回的是自己目錄中匹配的網(wǎng)站,如國內(nèi)搜狐、新浪、網(wǎng)易等;而另外一些則默認的是網(wǎng)頁搜索,如Yahoo。 搜索引擎的第三定律 搜索引擎走到今天,已經(jīng)是一個結(jié)束過去,開辟未來的時候了。為了說清楚我所講的第三定律,我們先來回顧一下第一和第二定律。 第一定律 相關(guān)性定律 聽起來象是一篇學術(shù)論文,的確,就連第一,第二定律的提法以前也沒有過,但是第一,第二定律的內(nèi)容確早已在業(yè)界和學術(shù)界得到了公認。其實這第一定律是早在互聯(lián)網(wǎng)出現(xiàn)之前就被學術(shù)界廣泛研究過的,那就是所謂的相關(guān)性定律。這個領(lǐng)域那時叫情報檢索,或信息檢索,也有叫全文檢索的。 那時的相關(guān)性都是基于詞頻統(tǒng)計的,也就是說,當用戶輸入檢索詞時,搜索引擎去找那些檢索詞在文章(網(wǎng)頁)中出現(xiàn)頻率較高的,位置較重要的,再加上一些對檢索詞本身常用程度的加權(quán),最后排出一個結(jié)果來(檢索結(jié)果頁面) 。早期的搜索引擎結(jié)果排序都是基于本文的第一定律的,如Infoseek,Excite,Lycos等,它們基本上是沿用了網(wǎng)絡(luò)時代之前學術(shù)界的研究成果,工業(yè)界的主要精力放在處理大訪問量和大數(shù)據(jù)量上,對相關(guān)性排序沒有突破。 詞頻統(tǒng)計其實根本沒有利用任何跟網(wǎng)絡(luò)有關(guān)的特性,是前網(wǎng)絡(luò)時代的技術(shù)。然而,網(wǎng)絡(luò)時代的主要文獻是以網(wǎng)頁的形式存在的,而幾乎每個人都可以隨心所欲地在網(wǎng)上發(fā)表各種內(nèi)容,詞頻相同的兩個網(wǎng)頁,質(zhì)量相差可以很遠,可是按照搜索引擎的第一定律,對這兩個網(wǎng)頁的排序應該是一樣的。為了能夠派在某些檢索結(jié)果的前幾位,許多網(wǎng)頁內(nèi)容的制作者絞盡腦汁,在其頁面上堆砌關(guān)鍵詞,搜索引擎對此防不勝防,苦不堪言。這種情況到了 1996年開始有了改變。 第二定律 人氣質(zhì)量定律 1996年4月,我到賭城拉斯維加斯開一個有關(guān)信息檢索方面的學術(shù)會議,會議的內(nèi)容就象拉斯維加斯的天氣一樣,照例比較枯燥乏味。但遠離公司的我,卻難得有一個靜下心來認真思考問題的機會。就在聽一個毫不相干的論文演講的時候,我突然把科學引文索引的機制跟Web上的超級鏈接聯(lián)系起來了 - 感謝北大,她在我上大三的時候就教授了我科學引文索引的機制,美國恐怕沒有一所大學會在你本科的時候教這玩藝兒。 科學引文索引的機制,說白了就是誰的論文被引用次數(shù)多,誰就被認為是權(quán)威,論文就是好論文。這個思路移植到網(wǎng)上就是誰的網(wǎng)頁被鏈接次數(shù)多,那個網(wǎng)頁就被認為是質(zhì)量高,人氣旺。在加上相應的鏈接文字分析,就可以用在搜索結(jié)果的排序上了。這就引出了搜索引擎的第二定律:人氣質(zhì)量定律。根據(jù)這一定律,搜索結(jié)果的相關(guān)性排序,并不完全依賴于詞頻統(tǒng)計,而是更多地依賴于超鏈分析。 我意識到這是一個突破性的東西,回去以后就很快總結(jié)了思路,于96年6月申請了這一方面的美國專利。1999年 7月6號,美國專利和商標局批準了專利號為5,920,859的,以我為唯一發(fā)明人的專利。大約在96年底,斯坦福大學計算機系的兩位研究生也想到了同樣的解決方法,他們后來創(chuàng)立了一個叫Google的搜索引擎,Google的網(wǎng)站上至今仍然說他們的這項技術(shù)是Patent-pending (專利申請中) ,不知道美國專利局是不是還會再批這樣的專利。Anyway, 超鏈分析的方法98年以后逐漸被各大搜索引擎所接受,由于鏈接是網(wǎng)絡(luò)內(nèi)容的一個根本特性,這時候的搜索引擎才開始真正利用網(wǎng)絡(luò)時代的檢索技術(shù)。 世事難料,2000年起網(wǎng)絡(luò)泡沫迅速破滅,各大搜索引擎要么遭人收購,要么推遲上市,所有使用人氣質(zhì)量定律的搜索引擎公司都未能幸免。那么,搜索引擎的出路到底在哪兒? 第三定律 自信心定律 人氣質(zhì)量定律解決的還是一個技術(shù)層面的問題,然而搜索引擎從誕生的那一天起,從來就不是一個純技術(shù)現(xiàn)像,它融合了技術(shù),文化,市場等各個層面的因素。解決搜索引擎公司的生存和發(fā)展問題需要搜索引擎的第三定律--自信心定律。 1998年的時候,沒有太多的人拿一家遠在硅谷500英里以外,剛剛成立的,叫作GoTo.com(現(xiàn)已更名為Overture)的公司當回事兒。它不過是買了一個搜索引擎的技術(shù)服務,然后再向那些網(wǎng)站的擁有者們拍賣他們網(wǎng)站在GoTo檢索結(jié)果中的排名,誰付的錢多,誰的網(wǎng)站就排在前面,而且付費是根據(jù)網(wǎng)民點擊該網(wǎng)站的情況來計算的,僅僅在搜索結(jié)果中出現(xiàn)并不需要付費。這就是自信心定律的最早實踐者!根據(jù)這一定律,搜索結(jié)果的相關(guān)性排序,除了詞頻統(tǒng)計和超鏈分析之外,更注重的是競價拍賣。誰對自己的網(wǎng)站有信心,誰就排在前面。有信心的表現(xiàn)就是愿意為這個排名付錢。需要聲明的是,自信心定律也是我自己給這一模式起的名字,以前的文獻中并沒有人這樣總結(jié)過。 今天,在網(wǎng)絡(luò)業(yè)一片蕭條,那斯達克風聲鶴唳的時候,GoTo卻如日中天,市值高達13億美金,收入高達雅虎總收入的35%。反觀門戶網(wǎng)站,有哪一個能從它們的搜索引擎服務中賺出總收入的三分之一呢?究其原因,就是因為GoTo最早實踐了搜索引擎的自信心定律。以前的搜索引擎都是靠CPM來收費的,而CPM是從傳統(tǒng)廣告業(yè)借鑒過來的,沒有考慮網(wǎng)絡(luò)媒體即時性,交互性,易競價的特點,而競價排名,點擊收費則是為網(wǎng)站擁有者直接提供銷售線索,而不是傳統(tǒng)意義上的廣告宣傳。自信心定律一改過去搜索引擎靠CPM收錢的尷尬局面,開創(chuàng)了真正屬于互聯(lián)網(wǎng)的收費模式。
三、什么是搜索引擎?
搜索引擎是一個對互聯(lián)網(wǎng)信息資源進行搜索整理和分類,并儲存在網(wǎng)絡(luò)數(shù)據(jù)庫中供用戶查詢的系統(tǒng),包括信息搜集、信息分類、用戶查詢?nèi)糠帧?/p>
工作原理
1.爬行:搜索引擎是通過一種特定規(guī)律的軟件跟蹤網(wǎng)頁的鏈接,從一個鏈接爬到另外一個鏈接,像蜘蛛在蜘蛛網(wǎng)上爬行一樣,所以被稱為“蜘蛛”也被稱為“機器人”。搜索引擎蜘蛛的爬行是被輸入了一定的規(guī)則的,它需要遵從一些命令或文件的內(nèi)容。
2.抓取存儲:搜索引擎是通過蜘蛛跟蹤鏈接爬行到網(wǎng)頁,并將爬行的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。搜索引擎蜘蛛在抓取頁面時,也做一定的重復內(nèi)容檢測,一旦遇到權(quán)重很低的網(wǎng)站上有大量抄襲、采集或者復制的內(nèi)容,很可能就不再爬行。
3.預處理:搜索引擎將蜘蛛抓取回來的頁面,進行各種步驟的預處理。
四、什么是搜索引擎?
什么是搜索引擎?
搜索引擎的英文為search engine。搜索引擎是一個對互聯(lián)網(wǎng)信息資源進行搜索整理和分類,并儲存在網(wǎng)絡(luò)數(shù)據(jù)庫中供用戶查詢的系統(tǒng),包括信息搜集、信息分類、用戶查詢?nèi)糠帧?/p>
從使用者的角度看,搜索引擎提供一個包含搜索框的頁面,在搜索框輸入詞語,通過瀏覽器提交給搜索引擎后,搜索引擎就會返回跟用戶輸入的內(nèi)容相關(guān)的信息列表。其實,搜索引擎涉及多領(lǐng)域的理論和技術(shù):數(shù)字圖書館、數(shù)據(jù)庫、信息檢索、信息提取、人工智能、機器學習、自然語言處理、計算機語言學、統(tǒng)計數(shù)據(jù)分析、數(shù)據(jù)挖掘、計算機網(wǎng)絡(luò)、分布式處理等,具有綜合性和挑戰(zhàn)性。
搜索引擎的用途,對普通網(wǎng)民而言,搜索引擎則僅僅是一種查詢工具,作為工具,使用者要了解搜索引擎的功用、性能,探討并掌握其使用方法和技巧。對商家來說,搜索引擎是一種贏利的產(chǎn)品或服務,而作為產(chǎn)品,搜索引擎商要研制、改進和創(chuàng)新其搜索技術(shù);作為服務,搜索引擎營銷商要研究搜索引擎優(yōu)化和推廣。利用搜索引擎的目的不同,構(gòu)成了搜索引擎研究的不同群體和對搜索引擎不同角度不同側(cè)重的研究。
以上就是關(guān)于搜索引擎主要包括三個部分相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
edge禁用bing搜索(edge如何禁用某個網(wǎng)站)
東苑景觀設(shè)計工程(東苑景觀設(shè)計工程招聘)
清華大學景觀設(shè)計專業(yè)(清華大學景觀設(shè)計專業(yè)錄取線)