• <noscript id="e0iig"><kbd id="e0iig"></kbd></noscript>
  • <td id="e0iig"></td>
  • <option id="e0iig"></option>
  • <noscript id="e0iig"><source id="e0iig"></source></noscript>
  • Scrapy框架入門

    標簽: Python爬蟲  Scrapy

    Scrapy簡介

    Scrapy框架是使用Python開發的一個快速、高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結構化的數據。Scrapy用途廣泛,可以用于數據挖掘、監測和自動化測試

    Scrapy不僅有單機版,開發者還可以使用其集群版Scrapy-redis開發分布式爬蟲程序,分布式爬蟲有更快的速度和更高的效率

    Scrapy用途非常廣泛,用戶只需要定制開發幾個模塊就可以輕松的實現一個爬蟲,用來抓取網頁內容以及各種圖片,非常之方便

    Scrapy框架結構

    Scrapy框架由幾個關鍵的組件構成,他們的關系如下圖所示,Scrapy結構圖:
    這里寫圖片描述

    Scrapy框架的組件

    Scrapy Engine

    爬蟲引擎,負責Spider、ItemPipeline、Downloader、Scheduler中間的通訊,信號、數據傳遞等

    Scheduler

    調度器,它負責接受引擎發送過來的Request請求,并按照一定的方式進行整理排列,入隊,當引擎需要時,交還給引擎

    Downloader

    下載器,負責下載Scrapy Engine發送的所有Requests請求,并將其獲取到的Responses交還給Scrapy Engine,由引擎交給Spider來處理

    Spider

    爬蟲,它負責處理所有Responses,從中分析提取數據,獲取Item字段需要的數據,并將需要跟進的URL提交給引擎,再次進入Scheduler

    Item Pipeline

    管道,負責處理Spider中獲取到的Item,并進行進行后期處理(詳細分析、過濾、存儲等)

    Downloader Middlewares

    下載中間件,可以自定義擴展下載功能

    Spider Middlewares

    Spider中間件,可以自定擴展和操作引擎和Spider中間通信的功能組件(比如進入Spider的Responses和從Spider出去的Requests)

    Scrapy框架的運作流程

    1. Spider將目標網址(如要爬取百度首頁,網址應為www.baidu.com)發送給Scrapy Engine
    2. Scrapy Engine將Spider發送過來的URL地址轉發給Scheduler(可以看出Scrapy Engine主要是起協同作用)
    3. Scheduler調度器對Scrapy Engine發送過來的所有request請求進行排序入隊
    4. Scheduler調度器將等待隊列中隊首的request請求發送給Downloader下載器
    5. Downloader下載器按照Downloader Middlewares中的下載設置進行對request請求訪問的內容進行下載,如果下載失敗,則稍后再次重試
    6. Downloader將下載下來的網頁內容交給Spider,Spider處理網頁后將爬取的數據交給Item Pipeline進行存儲。同時若Spider產生新的Request請求,則發送給Scrapy Engine,重復以上過程

    只有當調度器的Request被完全處理完,Spider不在產生新的Request請求,整個程序才會停止。下載失敗的URL,Scrapy會不斷嘗試重新下載直到成功為止

    Scrapy框架的開發流程

    使用Scrapy開發爬蟲要經歷如下幾個步驟:
    1. 新建項目 :創建爬蟲項目
    2. 明確目標 :確定要爬取的網頁
    3. 制作爬蟲 :制作爬蟲爬取網頁
    4. 存儲內容 :設計管道存儲爬取內容

    使用Scrapy創建一個Python爬蟲

    1.安裝Scrapy框架

    Scrapy官方中文網:http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html
    Scrapy官網:https://doc.scrapy.org/en/latest/

    Windows環境下:

    使用Python自帶的包管理工具pip進行安裝:

    pip install Scrapy

    在命令行輸入

    scrapy

    顯示如下,則說明Scrapy安裝成功

    這里寫圖片描述

    Linux環境下:

    運行兩個命令:

    sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
    sudo pip install scrapy

    2.使用Scrapy創建項目

    在命令行中輸入命令scrapy startproject ScrapyDemo,Scrapy框架會自動生成一個名為ScrapyDemo的爬蟲項目,目錄結構如下圖所示:

    各個文件的作用:

    scrapy.cfg :項目的配置文件
    mySpider/ :項目根目錄
    mySpider/items.py :項目的目標文件,用來指定爬取哪些內容
    mySpider/pipelines.py :項目的管道文件
    mySpider/settings.py :項目的設置文件
    mySpider/spiders/ :放置爬蟲代碼

    3.制作爬蟲

    創建爬蟲程序

    在ScrapyDemo框架spider文件夾下運行命令:scrapy genspider bupt "bupt.edu.cn",框架自動在spider文件夾下生成爬蟲程序文件bupt.py,自動生成的爬蟲程序有默認代碼:

    import scrapy
    
    class BuptSpider(bupt.Spider):
        name = "itcast"
        allowed_domains = ["bupt.edu.cn"]
        start_urls = (
            'http://www.bupt.edu.cn/',
        )
    
        def parse(self, response):
            pass

    也可以自己創建文件,不過使用命令可以省去一些麻煩

    爬蟲程序文件的主要內容

    主要內容有三個屬性和一個方法,name屬性,allowed_domains屬性,和start_urls屬性,parse方法

    name = “”

    爬蟲的名稱,必須是唯一的,在同一個項目中不同的爬蟲必須定義不同的名字

    allow_domains = []

    搜索的域名范圍,爬蟲的約束區域,規定爬蟲只爬取這個域名下的網頁,不存在的URL會被忽略

    start_urls = ()

    爬取的URL元祖/列表。爬蟲從這里開始抓取數據,所以,第一次下載的數據將會從這些urls開始。其他子URL將會從這些起始URL中繼承性生成

    parse(self, response)

    解析方法,每個初始URL完成下載后將被調用,調用的時候傳入從每一個URL傳回的Response對象來作為唯一參數,主要負責解析返回的網頁數據(response.body),提取結構化數據(生成item)和生成需要下一頁的URL請求

    一般情況下三個屬性都不需要改,需要在parse函數中添加操作,指定需要獲取并保存哪些數據。這里只舉一個簡單的例子,先不使用Scrapy框架的管道(item)功能,直接將網頁下載下來,代碼如下:

    # coding=utf-8
    import scrapy
    
    
    class BuptSpider(scrapy.Spider):
        name = "bupt"
        allowed_domains = ["scs.bupt.edu.cn"]
        start_urls = (
            'https://www.bupt.edu.cn/',
        )
    
        def parse(self, response):
            filename = "index.html"
            open(filename, 'wb+').write(response.body)
    
    

    在spiders文件夾下,運行命令scrapy crawl bupt,啟動爬蟲
    這里寫圖片描述
    出現如圖所示紅圈中的200正確信號,說明爬蟲爬取成功
    這里寫圖片描述

    生成了index.html文件
    這里寫圖片描述

    版權聲明:本文為eagleuniversityeye原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。
    本文鏈接:https://blog.csdn.net/eagleuniversityeye/article/details/80644804

    智能推薦

    Python爬蟲day7—Scrapy框架入門

    Scrapy爬蟲框架入門 概述 Scrapy是Python開發的一個非常流行的網絡爬蟲框架,可以用來抓取Web站點并從頁面中提取結構化的數據,被廣泛的用于數據挖掘、數據監測和自動化測試等領域。下圖展示了Scrapy的基本架構,其中包含了主要組件和系統的數據處理流程(圖中帶數字的紅色箭頭)。 組件 Scrapy引擎(Engine):Scrapy引擎是用來控制整個系統的數據處理流程。 調度器(Sche...

    Python爬蟲學習教程:Scrapy爬蟲框架入門

    Python爬蟲學習教程:Scrapy概述 Scrapy是Python開發的一個非常流行的網絡爬蟲框架,可以用來抓取Web站點并從頁面中提取結構化的數據,被廣泛的用于數據挖掘、數據監測和自動化測試等領域。下圖展示了Scrapy的基本架構,其中包含了主要組件和系統的數據處理流程(圖中帶數字的紅色箭頭)。 組件 Scrapy引擎(Engine):Scrapy引擎是用來控制整個系統的數據處理流程。 調度...

    HTML中常用操作關于:頁面跳轉,空格

    1.頁面跳轉 2.空格的代替符...

    freemarker + ItextRender 根據模板生成PDF文件

    1. 制作模板 2. 獲取模板,并將所獲取的數據加載生成html文件 2. 生成PDF文件 其中由兩個地方需要注意,都是關于獲取文件路徑的問題,由于項目部署的時候是打包成jar包形式,所以在開發過程中時直接安照傳統的獲取方法沒有一點文件,但是當打包后部署,總是出錯。于是參考網上文章,先將文件讀出來到項目的臨時目錄下,然后再按正常方式加載該臨時文件; 還有一個問題至今沒有解決,就是關于生成PDF文件...

    電腦空間不夠了?教你一個小秒招快速清理 Docker 占用的磁盤空間!

    Docker 很占用空間,每當我們運行容器、拉取鏡像、部署應用、構建自己的鏡像時,我們的磁盤空間會被大量占用。 如果你也被這個問題所困擾,咱們就一起看一下 Docker 是如何使用磁盤空間的,以及如何回收。 docker 占用的空間可以通過下面的命令查看: TYPE 列出了docker 使用磁盤的 4 種類型: Images:所有鏡像占用的空間,包括拉取下來的鏡像,和本地構建的。 Con...

    猜你喜歡

    requests實現全自動PPT模板

    http://www.1ppt.com/moban/ 可以免費的下載PPT模板,當然如果要人工一個個下,還是挺麻煩的,我們可以利用requests輕松下載 訪問這個主頁,我們可以看到下面的樣式 點每一個PPT模板的圖片,我們可以進入到詳細的信息頁面,翻到下面,我們可以看到對應的下載地址 點擊這個下載的按鈕,我們便可以下載對應的PPT壓縮包 那我們就開始做吧 首先,查看網頁的源代碼,我們可以看到每一...

    Linux C系統編程-線程互斥鎖(四)

    互斥鎖 互斥鎖也是屬于線程之間處理同步互斥方式,有上鎖/解鎖兩種狀態。 互斥鎖函數接口 1)初始化互斥鎖 pthread_mutex_init() man 3 pthread_mutex_init (找不到的情況下首先 sudo apt-get install glibc-doc sudo apt-get install manpages-posix-dev) 動態初始化 int pthread_...

    統計學習方法 - 樸素貝葉斯

    引入問題:一機器在良好狀態生產合格產品幾率是 90%,在故障狀態生產合格產品幾率是 30%,機器良好的概率是 75%。若一日第一件產品是合格品,那么此日機器良好的概率是多少。 貝葉斯模型 生成模型與判別模型 判別模型,即要判斷這個東西到底是哪一類,也就是要求y,那就用給定的x去預測。 生成模型,是要生成一個模型,那就是誰根據什么生成了模型,誰就是類別y,根據的內容就是x 以上述例子,判斷一個生產出...

    styled-components —— React 中的 CSS 最佳實踐

    https://zhuanlan.zhihu.com/p/29344146 Styled-components 是目前 React 樣式方案中最受關注的一種,它既具備了 css-in-js 的模塊化與參數化優點,又完全使用CSS的書寫習慣,不會引起額外的學習成本。本文是 styled-components 作者之一 Max Stoiber 所寫,首先總結了前端組件化樣式中的最佳實踐原則,然后在此基...

    精品国产乱码久久久久久蜜桃不卡