HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運營
CASE 服務(wù)案例
NEWS 熱點資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    簡單python爬蟲完整代碼(簡單python爬蟲完整代碼可用的)

    發(fā)布時間:2023-04-15 17:31:06     稿源: 創(chuàng)意嶺    閱讀: 92        

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于簡單python爬蟲完整代碼的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    簡單python爬蟲完整代碼(簡單python爬蟲完整代碼可用的)

    一、求一個python3爬蟲代碼,可以從小說網(wǎng)站上直接把小說的文字抄下來,并整合到一個新的文本里

    from bs4 import BeautifulSoup

    from requests.exceptions import RequestException

    import re

    import requests

    import os

    def get_html_text(url):

        try:

            r = requests.get(url)

            r.raise_for_status()

            return r.text

        except RequestException:

            return None

    def get_chapter_names(html):

        soup = BeautifulSoup(html, 'lxml')

        charpter = soup.select('.bg')

        charpter_names = []

        for entry in charpter[1:]:

            charpter_name = re.findall('<h4>(.*?)</h4>', str(entry))

            file_name = re.findall('<a href.*?>(.*?)</a>', str(entry))

            if charpter_name and file_name:

                for name in file_name:

                    name = name.split(' ')[0]

                    charpter_names.append(charpter_name[0] + '_' + name)

            else:

                pass

        return set(charpter_names)

    def get_each_url(html):

        soup = BeautifulSoup(html, 'lxml')

        urls = soup.select('ul li a')

        for url in urls:

            link = url.get('href')

            text = url.text.split(' ')[0]

            full_name = url.text.replace('?','')

            yield {'url': link, 'text': text,'full_name':full_name}

            print(text)

    def get_text(url):

        r = requests.get(url)

        r.encoding = r.apparent_encoding

        soup = BeautifulSoup(r.text, 'lxml')

        items = soup.select('div.content-body')

        item = re.findall(';(.*?);', items[0].text, re.S)

        return item[0].encode()

    def save_to_file(url, text, full_name):

        base_dir = 'daomu'

        path = '{}\{}\{}'.format(os.getcwd(), base_dir, text)

        if not os.path.exists(path):

            try:

                os.makedirs(path)

            except:

                pass

        try:

            with open(path +'\'+ full_name +'.txt', 'wb') as f:

                f.write(get_text(url))

        except:

            pass

    def main():

        url = 'http://seputu.com/'

        html = get_html_text(url)

        chapters = get_chapter_names(html)

        for chapter in chapters:

            for each in get_each_url(html):

                if each['text'] == chapter.split('_')[-1]:

                    save_to_file(each['url'],chapter,each['full_name'])

    if __name__ == '__main__':

        main()

    二、如何利用python寫爬蟲程序

    利用python寫爬蟲程序的方法:

    1、先分析網(wǎng)站內(nèi)容,紅色部分即是網(wǎng)站文章內(nèi)容div。

    簡單python爬蟲完整代碼(簡單python爬蟲完整代碼可用的)

    2、隨便打開一個div來看,可以看到,藍(lán)色部分除了一個文章標(biāo)題以外沒有什么有用的信息,而注意紅色部分我勾畫出的地方,可以知道,它是指向文章的地址的超鏈接,那么爬蟲只要捕捉到這個地址就可以了。

    簡單python爬蟲完整代碼(簡單python爬蟲完整代碼可用的)

    3、接下來在一個問題就是翻頁問題,可以看到,這和大多數(shù)網(wǎng)站不同,底部沒有頁數(shù)標(biāo)簽,而是查看更多。

    簡單python爬蟲完整代碼(簡單python爬蟲完整代碼可用的)

    4、不過在查看源文件時有一個超鏈接,經(jīng)測試它指向下一頁,那么通過改變其最后的數(shù)值,就可以定位到相應(yīng)的頁數(shù)上。

    簡單python爬蟲完整代碼(簡單python爬蟲完整代碼可用的)

    代碼如下:

    簡單python爬蟲完整代碼(簡單python爬蟲完整代碼可用的)

    簡單python爬蟲完整代碼(簡單python爬蟲完整代碼可用的)

    簡單python爬蟲完整代碼(簡單python爬蟲完整代碼可用的)

    三、python爬蟲入門教程

    工具/材料

    IELD(python 3.6.2),windows 7

    • 01

      首先打開IDLE,輸入import requests模塊,如果沒有報錯,就說明已經(jīng)安裝了這個模塊,請?zhí)^此步驟;如果報錯,先打開命令行,win+r,彈出運行窗口,然后輸入cmd,點擊確定即可。

    • 02

      然后輸入pip3 install requests 安裝模塊即可

    • 03

      然后在IDLE窗口中輸入如下圖所示的命令

    • 04

      在瀏覽器中輸入https://zhinan.sogou.com/,就可以打開網(wǎng)頁,這時點擊鼠標(biāo)右鍵,然后點擊查看網(wǎng)頁源代碼,就可以發(fā)現(xiàn),打印的結(jié)果和在瀏覽器中看到的源代碼是一樣的

    四、如何入門 python 爬蟲

    如何入門 python 爬蟲

    先自己答一個,期待牛人的回答。

    自己學(xué)Python不久,列舉自己做過的和知道的。

    1. Python做爬蟲很方便,有現(xiàn)成的庫。 我在學(xué)習(xí)python的過程中也遇到過一個非常簡單的例子,代碼:python/primer/20/Cralwer.py at master · xxg1413/python · GitHub 。好像有開源的項目叫什么supercrawler,具體可以看看。

    2.Python做游戲。Pygame還是不錯的,但只適合做小游戲。用Pygame寫個植物大戰(zhàn)僵尸還是可以的。推薦教程 用Python和Pygame寫游戲。Python在游戲服務(wù)器方面也有應(yīng)用。EVE這種游戲都大量用Python。

    3.Python作為黑客第一語言,在黑客領(lǐng)域的應(yīng)用就不多說了。

    4.Python做網(wǎng)站,有幾個web框架 WebFrameworks。 用得最多的是Django。

    5......各方面都有,什么推薦系統(tǒng),都是用python,在此就不一一列舉了。

    以上就是關(guān)于簡單python爬蟲完整代碼相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。


    推薦閱讀:

    二手房簡單改造(二手房簡單改造翻修)

    一鍵生成app制作器(簡單app制作軟件)_1

    企業(yè)形象墻展示墻(簡單大氣公司形象墻)

    碧桂園景觀設(shè)計(碧桂園景觀設(shè)計師待遇)

    張家灣鎮(zhèn)景觀設(shè)計(張家灣鎮(zhèn)景觀設(shè)計招標(biāo))