-
當(dāng)前位置:首頁(yè) > 創(chuàng)意學(xué)院 > 營(yíng)銷推廣 > 專題列表 > 正文
- 火車頭采集規(guī)則,如果在列表頁(yè)里面有多個(gè)參數(shù),應(yīng)該如何設(shè)置開始采集的地址,
- 火車頭采集器怎么采集今日頭條文章?
- 如何寫火車頭采集器的采集規(guī)則,采集頁(yè)面上圖片內(nèi)的文字?
- 火車頭采集器怎么用?
火車頭采集器規(guī)則(火車頭采集器規(guī)則群)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于火車頭采集器規(guī)則的問題,以下是小編對(duì)此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,有小程序、在線網(wǎng)頁(yè)版、PC客戶端和批量生成器
問友Ai官網(wǎng):https://ai.de1919.com。
本文目錄:
火車頭采集規(guī)則,如果在列表頁(yè)里面有多個(gè)參數(shù),應(yīng)該如何設(shè)置開始采集的地址,
試了下,火車頭確實(shí)不行,因?yàn)樗鹗季W(wǎng)址的參數(shù)就一個(gè)*,沒法對(duì)兩個(gè)動(dòng)態(tài)的數(shù)據(jù)描述。那不妨換個(gè)角度來思考,為什么不把這些網(wǎng)址變成1級(jí)網(wǎng)址讓火車頭以采集的方式把它采集出來呢。比如//i.html?_pgn=2&_skc=50&rt=nc把這個(gè)設(shè)置為起始網(wǎng)址(0級(jí)網(wǎng)址),那么你在設(shè)置采集網(wǎng)址的1級(jí)網(wǎng)址。而//i.html?_pgn=2&_skc=50&rt=nc這個(gè)頁(yè)面肯定會(huì)有下一頁(yè),那么下一頁(yè)的網(wǎng)址應(yīng)該就是://i.html?_pgn=3&_skc=100&rt=nc,這個(gè)頁(yè)面的下一頁(yè)的網(wǎng)址就是//i.html?_pgn=4&_skc=150&rt=nc,依次類推,層層采集,最終會(huì)把你要得網(wǎng)址采集完。那么可能會(huì)問起始網(wǎng)址就一個(gè),怎么會(huì)采集到那么多的“下一頁(yè)”呢,這個(gè)可以用分頁(yè)的效果來實(shí)現(xiàn),因?yàn)槟阍O(shè)置好了分頁(yè),火車頭就會(huì)自動(dòng)跳到下一頁(yè)去采集,分頁(yè)的功能就把一個(gè)起始網(wǎng)址擴(kuò)展出N個(gè)起始網(wǎng)址了!
火車頭采集器怎么采集今日頭條文章?
第一步采集網(wǎng)址,下載好火車頭采集器后打開,新建一個(gè)任務(wù),任務(wù)名隨意。把需要采集的網(wǎng)站文章列表頁(yè)網(wǎng)址添加到起始網(wǎng)址。從圖中看出該列表頁(yè)有34頁(yè),每頁(yè)有N篇文章。2
列表頁(yè)會(huì)一級(jí)網(wǎng)址,添加多級(jí)網(wǎng)址獲取,從而獲取二級(jí)網(wǎng)址(文章頁(yè)網(wǎng)址)
設(shè)置列表分頁(yè)獲取,3個(gè)地方分別是:分頁(yè)源代碼前面和后面還有中間位置。這一步用于獲取列表頁(yè)面鏈接,因?yàn)橛?4個(gè)列表頁(yè)面。設(shè)置完保存。
網(wǎng)址獲取選項(xiàng),這一步用于獲取列表頁(yè)上面文章頁(yè)的鏈接,根據(jù)自己需要設(shè)置需要截取的部分和根據(jù)網(wǎng)址的結(jié)構(gòu)設(shè)置包含與不包含某些字符。為空即沒限制,設(shè)置完保存。
設(shè)置好鏈接采集規(guī)則后,可以測(cè)試網(wǎng)址,看測(cè)試結(jié)果調(diào)整規(guī)則??磮D可以看到采集鏈接規(guī)則從起始鏈接到全面列表頁(yè)再到列表頁(yè)上的文章頁(yè)鏈接都已經(jīng)成功采集。
第二步是采集內(nèi)容,首先修改標(biāo)題規(guī)則,在頁(yè)面源代碼里面找到標(biāo)題的代碼,把標(biāo)題前后代碼負(fù)責(zé)過去截取出標(biāo)題。保存。
修改內(nèi)容采集規(guī)則,跟標(biāo)題規(guī)則差不多,也是源代碼里面找到內(nèi)容的前后代碼。這里內(nèi)容會(huì)有一些其他html標(biāo)簽,所以得添加一個(gè)html標(biāo)簽排除的規(guī)則。
完成后,測(cè)試看一下結(jié)果,從測(cè)試結(jié)果來調(diào)試規(guī)則,直到測(cè)試結(jié)果是自己想要的內(nèi)容為止。
第三步是采集導(dǎo)出。前面1、2兩步把規(guī)則設(shè)置好,最后就要把文章導(dǎo)出了。先做一個(gè)導(dǎo)出的模版。
然后選擇方式二,把每一篇文章都分別記錄到一個(gè)txt文本,保存位置自己選擇,模板選擇剛剛做好的導(dǎo)出模版.保存的文件名用文章標(biāo)題為命名。其他默認(rèn),保存。
把采集網(wǎng)址,采集內(nèi)容,發(fā)布3個(gè)選項(xiàng)框都勾選,然后開始采集。完成后文本就自動(dòng)生成在剛剛保存的文件夾里面了。
火車頭采集器采集文章教程到此就完成了,由于每個(gè)網(wǎng)站都是不一樣的,所以這里只能用一個(gè)網(wǎng)站演示,只是一個(gè)方法思路,自己采集文章還需要靈活變通。追問
這樣復(fù)雜粘貼有意思嗎?
如何寫火車頭采集器的采集規(guī)則,采集頁(yè)面上圖片內(nèi)的文字?
不得不說火車頭是有一定用處,但是個(gè)人覺得不怎么好用,光是寫那些采集規(guī)則,設(shè)定什么的就一大堆不明不白的東西。拿錢購(gòu)買嘛,一開始那客服還很熱情的為你解答,一交完錢買下來了,寫規(guī)則,好了,有問題要找客服解決,結(jié)果一拖再拖,弄了一個(gè)多月還沒弄好,整個(gè)網(wǎng)站的工作進(jìn)程全拖慢了,還不如自己辛苦點(diǎn)自己手動(dòng)寫文章,還采集啥啊~言歸正傳,火車頭使用:新建站點(diǎn)—>新建任務(wù)—>填寫你要采集的網(wǎng)站文章列表—>點(diǎn)下面的開始測(cè)試網(wǎng)址—>如果有采集到很多文章,看各個(gè)地址相同部分(如system/2012/03/07),點(diǎn)返回修改,把system/2012/03/07這部分加到“文章內(nèi)容必須包含”那里,再測(cè)試一下,就可以采集到3月7日的文章地址了—>前面準(zhǔn)備好網(wǎng)址后接下來就是第二步的采集內(nèi)容規(guī)則了,點(diǎn)第二步,設(shè)定標(biāo)簽,一般采集包括標(biāo)題<title></title>、關(guān)鍵字<meta name=keyword...>、內(nèi)容<div>...</div>,這些設(shè)置從你要采集的網(wǎng)站代碼上可以找到相應(yīng)的——>采集頁(yè)面上的圖片,在第四步,“文件保存及高級(jí)設(shè)置”,選擇所有文件本地保存文件夾(這里是從頁(yè)面下載圖片存放的位置),然后下面有個(gè)FTP同步文件上傳的,填好服務(wù)器、用戶名、密碼什么的,文件上傳根目錄就是你網(wǎng)站服務(wù)器放置圖片的文件夾位置,你可以在服務(wù)器新建一個(gè)文件夾試試看,OK!到此為止,不過有一些網(wǎng)站寫了反采集代碼,有可能會(huì)被封IP,整體來說,個(gè)人不提倡使用火車頭采集器,還不如個(gè)人手動(dòng)來得實(shí)在,就算一天少發(fā)點(diǎn)也行,只要保證每天更新量、偽原創(chuàng)和原創(chuàng),一樣有很大效果。
火車頭采集器怎么用?
軟件程序的獲取:
大家可以從百度中搜索“火車頭采集器”,并進(jìn)入對(duì)應(yīng)官方來獲取程序的最新版本下載地址。當(dāng)然也可以從小編所提供的網(wǎng)盤地址中獲取最新版本程序:
請(qǐng)點(diǎn)擊輸入圖片描述
請(qǐng)點(diǎn)擊輸入圖片描述
2
安裝并運(yùn)行“火車頭采集器”程序,在彈出的登陸界面中直接點(diǎn)擊“登陸”按鈕就可以以免費(fèi)版身份登陸。
請(qǐng)點(diǎn)擊輸入圖片描述
3
在程序主界面中,點(diǎn)擊“新建”下拉箭頭,從中選擇“任務(wù)”項(xiàng)。
請(qǐng)點(diǎn)擊輸入圖片描述
4
在彈出的窗口中,輸入“任務(wù)名”,同時(shí)點(diǎn)擊“起始網(wǎng)址”欄目右側(cè)的“添加”按鈕。
請(qǐng)點(diǎn)擊輸入圖片描述
5
接下來就極為重要的一步,就是對(duì)要進(jìn)行采集的網(wǎng)站進(jìn)行分板,對(duì)所采取的網(wǎng)站中各片文章的URL進(jìn)行綜合分析并找出規(guī)律,最后按如圖進(jìn)行填寫。
請(qǐng)點(diǎn)擊輸入圖片描述
6
然后切換至“第二步:采集內(nèi)容規(guī)則”選項(xiàng)卡中,我們需要對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行分板。在此以“搜狗瀏覽器”為例,右擊要進(jìn)行分析的網(wǎng)頁(yè),從彈出的菜單中選擇“審查元素”項(xiàng)。
請(qǐng)點(diǎn)擊輸入圖片描述
7
在“開發(fā)式模式”界面中,點(diǎn)擊“選擇頁(yè)面中的一個(gè)元素去透視”按鈕,接著點(diǎn)擊“標(biāo)題”內(nèi)容,此時(shí)就可以在“開發(fā)者”窗口中顯示標(biāo)題所對(duì)應(yīng)的標(biāo)簽,此例為“h2"。
請(qǐng)點(diǎn)擊輸入圖片描述
8
接下來在”采集內(nèi)容規(guī)則“界面中,點(diǎn)擊“添加”按鈕來添加“標(biāo)題”項(xiàng),或者直接雙擊“標(biāo)題”項(xiàng)進(jìn)行修改。在彈出的界面中,勾選”前后截取“,將設(shè)置前后輟分別為"<h2>“、”</h2>".
請(qǐng)點(diǎn)擊輸入圖片描述
9
利用同樣的方法添加其它采集內(nèi)容的規(guī)則。
切換至“第三步:發(fā)布內(nèi)容設(shè)置”選項(xiàng)卡,勾選“啟用 方式二”,并進(jìn)行如圖設(shè)置。
請(qǐng)點(diǎn)擊輸入圖片描述
10
最后從任務(wù)列表中,勾選要采集的內(nèi)容,點(diǎn)擊“開始”按鈕就可以按規(guī)則采集網(wǎng)站中的網(wǎng)頁(yè)內(nèi)容啦。
請(qǐng)點(diǎn)擊輸入圖片描述
如果還有啥問題,請(qǐng)留言或者私信,如果回答的還算可以,請(qǐng)列為最佳答案
以上就是關(guān)于火車頭采集器規(guī)則相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
杭州良渚地鐵站到火車東站乘幾號(hào)線(杭州良渚地鐵站到火車東站乘幾號(hào)線到達(dá))
杭州到息縣火車時(shí)刻表查詢(杭州到息縣火車時(shí)刻表查詢結(jié)果)
火車頭采集分頁(yè)內(nèi)容(火車頭采集分頁(yè)內(nèi)容是什么)
巨量引擎賬號(hào)登錄不上(巨量引擎賬號(hào)登錄不上怎么回事)
高考后留學(xué)日本的流程(高考完去日本留學(xué)費(fèi)用)