-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
如何抓取網(wǎng)站里面的數(shù)據(jù)(excel自動(dòng)抓取網(wǎng)頁數(shù)據(jù))
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于如何抓取網(wǎng)站里面的數(shù)據(jù)的問題,以下是小編對(duì)此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、網(wǎng)頁數(shù)據(jù)無法導(dǎo)出,如何獲取
修改安全設(shè)置。
1、打開電腦,進(jìn)入任意一個(gè)瀏覽器即可,首先找到瀏覽器【工具】欄菜單,打開瀏覽器【Internet選項(xiàng)】;2、點(diǎn)擊【安全】選項(xiàng)卡,之后會(huì)出現(xiàn)安全設(shè)置界面;3、點(diǎn)擊下方的自定義級(jí)別,在彈出的窗口中找到”對(duì)未標(biāo)記為可安全執(zhí)行的腳本的ActiveX控件初始化并執(zhí)行腳本“這一選項(xiàng);4、點(diǎn)擊啟用;之后將彈出警告窗口,選擇“是”,隨后將自動(dòng)返回一級(jí)菜單,工具欄下方將顯示“您的安全設(shè)置導(dǎo)致計(jì)算機(jī)存在安全風(fēng)險(xiǎn)”,excle即可安全導(dǎo)出。
二、如何爬取網(wǎng)頁表格數(shù)據(jù)
網(wǎng)頁里的表格數(shù)據(jù)可以用爬蟲比如python去采集,也可以用采集器去采集網(wǎng)頁上的表格數(shù)據(jù)會(huì)更簡(jiǎn)單些。
三、軟件推薦丨GoldDataSpider —— 網(wǎng)頁數(shù)據(jù)抽取工具
GoldDataSpider 是用于抓取網(wǎng)頁和抽取數(shù)據(jù)的工具。其核心代碼是從金色數(shù)據(jù)抓取融合平臺(tái)分離而來。
該項(xiàng)目提供抓取和抽取來自網(wǎng)頁數(shù)據(jù),不僅可以抽取網(wǎng)頁內(nèi)的內(nèi)容,還能抽取URL、HTTP報(bào)頭、Cookie里的數(shù)據(jù)。
該項(xiàng)目定義了一種簡(jiǎn)潔、靈活、敏捷的結(jié)構(gòu)或者說是規(guī)則語法。極盡其所能將網(wǎng)頁內(nèi)容、HTTP報(bào)頭、Cookie、甚至關(guān)聯(lián)其它網(wǎng)頁、其它網(wǎng)站數(shù)據(jù),抽取出有意義有價(jià)值數(shù)據(jù)字段,組成一條數(shù)據(jù)記錄。除此之外,還能內(nèi)嵌http請(qǐng)求,以補(bǔ)充數(shù)據(jù)字段,比如某些字段需要向詞典提供翻譯這樣的字段等等。
該項(xiàng)目還可支持從各種類型文檔抽取數(shù)據(jù),比如html/xml/json/javascript/text等。
我們還提供了規(guī)則可視化配制,請(qǐng)下載采集數(shù)量不受限、爬蟲數(shù)量不受限、導(dǎo)出數(shù)據(jù)數(shù)量不受限的完全免費(fèi)金色數(shù)據(jù)平臺(tái)社區(qū)版 。以及詳盡的文檔
使用入門
首先,我們需要將依賴加入項(xiàng)目當(dāng)中,如下:
1、對(duì)于maven項(xiàng)目
2、對(duì)于gradle項(xiàng)目
然后你將可以使用該依賴所提供的簡(jiǎn)潔清晰的API,如下:
運(yùn)行上面的測(cè)試,你將可以看類似下面的輸出:
當(dāng)作Service或者API使用
你可以在項(xiàng)目中,可以當(dāng)作調(diào)用服務(wù)和API使用。例如如下:
對(duì)于可視化配制,可以參考免費(fèi)社區(qū)版文檔。以下就免費(fèi)社區(qū)版做簡(jiǎn)單介紹 ,詳情見官網(wǎng)!
免費(fèi)社區(qū)版:
開源/免費(fèi)
讓用戶更好理解和使用產(chǎn)品
我們針對(duì)數(shù)據(jù)采集免費(fèi),還開放和維護(hù)核心的開源代碼項(xiàng)目。讓用戶可以更好的使用、理解采集,用好采集。 讓用戶在各種場(chǎng)景應(yīng)用金色數(shù)據(jù)采集帶來的便利,我們有信心讓客戶見到一個(gè)開放的數(shù)據(jù)平臺(tái),讓用戶放心/省心/省力。
自由/靈活
透出一股強(qiáng)大的采集核心
我們的采集器,將向用戶暴露一切目標(biāo)數(shù)據(jù),除了常規(guī)網(wǎng)頁內(nèi)容,還有如URL、HTTP報(bào)頭、Cookie等。還提供了各種解析工具和函數(shù),讓用戶不僅能得到網(wǎng)頁內(nèi)容里的數(shù)據(jù),還能得到URL、HTTP報(bào)頭、Cookie里隱藏的核心數(shù)據(jù),還能靈活做到智能防封。
分布式采集
私有云,更靈活,更安全,更放心
可以根據(jù)自身需求,隨意部署采集器數(shù)量,7*24小時(shí)不間斷運(yùn)行,采集后端集中靈活控制。可自由指揮數(shù)據(jù)在哪個(gè)采集器采集。可定義定時(shí)采集,無需人員值守。
數(shù)據(jù)可關(guān)聯(lián)可追蹤
恢復(fù)/重建數(shù)據(jù)內(nèi)在與外在價(jià)值
可以讓每條數(shù)據(jù)隨著目標(biāo)網(wǎng)站目標(biāo)內(nèi)容更新(如商品價(jià)格)、而更新用戶應(yīng)用表該條數(shù)據(jù)相關(guān)字段內(nèi)容。
非侵入式融合
融合從未如此現(xiàn)實(shí)和簡(jiǎn)單
完全可以在不改變用戶應(yīng)用表結(jié)構(gòu)(增刪改表列),而將采集數(shù)據(jù)融入到應(yīng)用表中。
自動(dòng)化/一體化
無需人力操作,即抓即用
不只是采集可以自動(dòng)化抓取,融合也提供了手動(dòng)化和強(qiáng)大自動(dòng)化功能。還將采集與融合操作無縫對(duì)接,可將目標(biāo)數(shù)據(jù)抓一條融合一條,實(shí)時(shí)流向應(yīng)用表,做到即抓即用!
點(diǎn)擊下方鏈接,獲取軟件下載地址↓↓↓
GoldDataSpider首頁、文檔和下載 - 網(wǎng)頁數(shù)據(jù)抽取工具 - 開源中國(guó)
四、如何抓取網(wǎng)頁中的動(dòng)態(tài)數(shù)據(jù)
首先明確我指的動(dòng)態(tài)數(shù)據(jù)是什么。
名詞定義:動(dòng)態(tài)數(shù)據(jù)在這里指的是網(wǎng)頁中由Javascript動(dòng)態(tài)生成的頁面內(nèi)容,即網(wǎng)頁源文件中沒有,在頁面加載到瀏覽器后動(dòng)態(tài)生成的。
下面進(jìn)入正題。
抓取靜態(tài)頁面很簡(jiǎn)單,通過Java獲取到html源碼,然后分析源碼即可得到想要的信息。如獲取中國(guó)天氣網(wǎng)中杭州的天氣,只需要找到對(duì)應(yīng)的html頁面(http://www.weather.com.cn/weather/101210101.shtml)。
假設(shè)我需要輸入城市名稱獲取改城市的天氣,數(shù)據(jù)源還是采用中國(guó)天氣網(wǎng)。首先要做的是根據(jù)城市找到對(duì)應(yīng)的頁面。通過簡(jiǎn)單分析發(fā)現(xiàn),城市與頁面的URL有對(duì)應(yīng),如杭州對(duì)應(yīng)101210101,所以程序的關(guān)鍵就是找到城市與頁面的對(duì)應(yīng)關(guān)系。
發(fā)現(xiàn)該網(wǎng)站的搜索框有中國(guó)大多數(shù)城市的鏈接,可以得到城市與_id的對(duì)應(yīng)關(guān)系。找到突破口,開始行動(dòng)。進(jìn)入首頁,查看其源代碼,找到搜索框所在位置。
原來數(shù)據(jù)是通過Javascript動(dòng)態(tài)加進(jìn)去的,用Chrome的inspect element看到以下內(nèi)容。
目前可以做的是利用Chrome將html復(fù)制到文件,然后解析該文件得到城市與URL的關(guān)系。問題是萬一網(wǎng)站的城市與URL對(duì)應(yīng)關(guān)系有變化,這就很被動(dòng)還需改程序。
現(xiàn)在的問題是如何用Java獲取Javascript動(dòng)態(tài)生成的html內(nèi)容,不知大家有什么看法。
以上就是關(guān)于如何抓取網(wǎng)站里面的數(shù)據(jù)相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
新手如何做網(wǎng)上銷售(免費(fèi)入駐的賣貨平臺(tái)有哪些)
重慶如何運(yùn)營(yíng)短視頻企業(yè)(重慶如何運(yùn)營(yíng)短視頻企業(yè)賺錢)
世界助聽器十大排名(全球助聽器十大排行榜及簡(jiǎn)介)
猜你喜歡
云計(jì)算模式的基本原理(云計(jì)算模式的基本原理是)
開戶當(dāng)天能交易嗎(期貨當(dāng)天開戶當(dāng)天能交易嗎)
個(gè)人網(wǎng)站做什么內(nèi)容好(個(gè)人網(wǎng)站做什么內(nèi)容好呢)
喜歡一個(gè)人陳奕迅歌詞含義(陳奕迅喜歡一個(gè)人歌詞大意)
50種適合女性的職業(yè)(適合內(nèi)向老實(shí)女生的10種工作)
市場(chǎng)營(yíng)銷說白了就是干什么的(新手怎么做銷售)
gboardgoogle最新版(gboard-google)
問大家
從零基礎(chǔ)學(xué)習(xí)室內(nèi)設(shè)計(jì)可以學(xué)成嗎,學(xué)年美術(shù),工資待遇如何?
抖音在海外怎么直播?抖音如何開通國(guó)外直播權(quán)限?
泉州網(wǎng)頁美工設(shè)計(jì)該如何選擇?諸位朋友們請(qǐng)回復(fù)下
蘇州的財(cái)務(wù)代理記賬公司是如何收費(fèi)的?姑蘇區(qū)公司注冊(cè)哪家公司好
抖音如何開通韓國(guó)直播權(quán)限?抖音怎么開通韓國(guó)直播權(quán)限辦法
城東穩(wěn)妥的廣告片短視頻拍攝制作如何避免踩一些雷?諸位前輩們幫回答下
抖音在泰國(guó)可以直播嗎?泰國(guó)如何開通抖音海外直播?
如何開通抖音海外直播白名單?抖音海外直播權(quán)限解決辦法
河北二志文化傳媒有限公司在秦皇島專業(yè)制作候車廳行業(yè)口碑如何?在座的資深人士們急需賜教
東城奠基儀式辦公會(huì)議場(chǎng)地出租如何選擇不被騙?在座的老鐵們?cè)诰€等