Scrapy框架入門

標簽： Python爬蟲 Scrapy

Scrapy簡介

Scrapy框架是使用Python開發的一個快速、高層次的屏幕抓取和web抓取框架，用于抓取web站點并從頁面中提取結構化的數據。Scrapy用途廣泛，可以用于數據挖掘、監測和自動化測試

Scrapy不僅有單機版，開發者還可以使用其集群版Scrapy-redis開發分布式爬蟲程序，分布式爬蟲有更快的速度和更高的效率

Scrapy用途非常廣泛，用戶只需要定制開發幾個模塊就可以輕松的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便

Scrapy框架結構

Scrapy框架由幾個關鍵的組件構成，他們的關系如下圖所示，Scrapy結構圖：
這里寫圖片描述

Scrapy框架的組件

Scrapy Engine

爬蟲引擎，負責Spider、ItemPipeline、Downloader、Scheduler中間的通訊，信號、數據傳遞等

Scheduler

調度器，它負責接受引擎發送過來的Request請求，并按照一定的方式進行整理排列，入隊，當引擎需要時，交還給引擎

Downloader

下載器，負責下載Scrapy Engine發送的所有Requests請求，并將其獲取到的Responses交還給Scrapy Engine，由引擎交給Spider來處理

Spider

爬蟲，它負責處理所有Responses，從中分析提取數據，獲取Item字段需要的數據，并將需要跟進的URL提交給引擎，再次進入Scheduler

Item Pipeline

管道，負責處理Spider中獲取到的Item，并進行進行后期處理（詳細分析、過濾、存儲等）

Downloader Middlewares

下載中間件，可以自定義擴展下載功能

Spider Middlewares

Spider中間件，可以自定擴展和操作引擎和Spider中間通信的功能組件（比如進入Spider的Responses和從Spider出去的Requests）

Scrapy框架的運作流程

Spider將目標網址（如要爬取百度首頁，網址應為www.baidu.com）發送給Scrapy Engine
Scrapy Engine將Spider發送過來的URL地址轉發給Scheduler（可以看出Scrapy Engine主要是起協同作用）
Scheduler調度器對Scrapy Engine發送過來的所有request請求進行排序入隊
Scheduler調度器將等待隊列中隊首的request請求發送給Downloader下載器
Downloader下載器按照Downloader Middlewares中的下載設置進行對request請求訪問的內容進行下載，如果下載失敗，則稍后再次重試
Downloader將下載下來的網頁內容交給Spider，Spider處理網頁后將爬取的數據交給Item Pipeline進行存儲。同時若Spider產生新的Request請求，則發送給Scrapy Engine，重復以上過程

只有當調度器的Request被完全處理完，Spider不在產生新的Request請求，整個程序才會停止。下載失敗的URL，Scrapy會不斷嘗試重新下載直到成功為止

Scrapy框架的開發流程

使用Scrapy開發爬蟲要經歷如下幾個步驟：
1. 新建項目：創建爬蟲項目
2. 明確目標：確定要爬取的網頁
3. 制作爬蟲：制作爬蟲爬取網頁
4. 存儲內容：設計管道存儲爬取內容

使用Scrapy創建一個Python爬蟲

1.安裝Scrapy框架

Scrapy官方中文網：http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html
Scrapy官網：https://doc.scrapy.org/en/latest/

Windows環境下：

使用Python自帶的包管理工具pip進行安裝：

pip install Scrapy

在命令行輸入

scrapy

顯示如下，則說明Scrapy安裝成功

這里寫圖片描述

Linux環境下：

運行兩個命令：

sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
sudo pip install scrapy

2.使用Scrapy創建項目

在命令行中輸入命令scrapy startproject ScrapyDemo,Scrapy框架會自動生成一個名為ScrapyDemo的爬蟲項目，目錄結構如下圖所示：

各個文件的作用：

scrapy.cfg ：項目的配置文件
mySpider/ ：項目根目錄
mySpider/items.py ：項目的目標文件，用來指定爬取哪些內容
mySpider/pipelines.py ：項目的管道文件
mySpider/settings.py ：項目的設置文件
mySpider/spiders/ ：放置爬蟲代碼

3.制作爬蟲

創建爬蟲程序

在ScrapyDemo框架spider文件夾下運行命令：scrapy genspider bupt "bupt.edu.cn"，框架自動在spider文件夾下生成爬蟲程序文件bupt.py，自動生成的爬蟲程序有默認代碼：

import scrapy

class BuptSpider(bupt.Spider):
    name = "itcast"
    allowed_domains = ["bupt.edu.cn"]
    start_urls = (
        'http://www.bupt.edu.cn/',
    )

    def parse(self, response):
        pass

也可以自己創建文件，不過使用命令可以省去一些麻煩

爬蟲程序文件的主要內容

主要內容有三個屬性和一個方法，name屬性，allowed_domains屬性，和start_urls屬性，parse方法

name = “”

爬蟲的名稱，必須是唯一的，在同一個項目中不同的爬蟲必須定義不同的名字

allow_domains = []

搜索的域名范圍，爬蟲的約束區域，規定爬蟲只爬取這個域名下的網頁，不存在的URL會被忽略

start_urls = ()

爬取的URL元祖/列表。爬蟲從這里開始抓取數據，所以，第一次下載的數據將會從這些urls開始。其他子URL將會從這些起始URL中繼承性生成

parse(self, response)

解析方法，每個初始URL完成下載后將被調用，調用的時候傳入從每一個URL傳回的Response對象來作為唯一參數，主要負責解析返回的網頁數據(response.body)，提取結構化數據(生成item)和生成需要下一頁的URL請求

一般情況下三個屬性都不需要改，需要在parse函數中添加操作，指定需要獲取并保存哪些數據。這里只舉一個簡單的例子，先不使用Scrapy框架的管道（item）功能，直接將網頁下載下來，代碼如下：

# coding=utf-8
import scrapy


class BuptSpider(scrapy.Spider):
    name = "bupt"
    allowed_domains = ["scs.bupt.edu.cn"]
    start_urls = (
        'https://www.bupt.edu.cn/',
    )

    def parse(self, response):
        filename = "index.html"
        open(filename, 'wb+').write(response.body)

在spiders文件夾下，運行命令scrapy crawl bupt，啟動爬蟲
這里寫圖片描述
出現如圖所示紅圈中的200正確信號，說明爬蟲爬取成功

生成了index.html文件
這里寫圖片描述

本文鏈接：https://blog.csdn.net/eagleuniversityeye/article/details/80644804

智能推薦

Python爬蟲day7—Scrapy框架入門

Scrapy爬蟲框架入門概述 Scrapy是Python開發的一個非常流行的網絡爬蟲框架，可以用來抓取Web站點并從頁面中提取結構化的數據，被廣泛的用于數據挖掘、數據監測和自動化測試等領域。下圖展示了Scrapy的基本架構，其中包含了主要組件和系統的數據處理流程（圖中帶數字的紅色箭頭）。組件 Scrapy引擎（Engine）：Scrapy引擎是用來控制整個系統的數據處理流程。調度器（Sche...

Python爬蟲學習教程：Scrapy爬蟲框架入門

Python爬蟲學習教程：Scrapy概述 Scrapy是Python開發的一個非常流行的網絡爬蟲框架，可以用來抓取Web站點并從頁面中提取結構化的數據，被廣泛的用于數據挖掘、數據監測和自動化測試等領域。下圖展示了Scrapy的基本架構，其中包含了主要組件和系統的數據處理流程（圖中帶數字的紅色箭頭）。組件 Scrapy引擎（Engine）：Scrapy引擎是用來控制整個系統的數據處理流程。調度...

HTML中常用操作關于：頁面跳轉，空格

1.頁面跳轉 2.空格的代替符...

freemarker + ItextRender 根據模板生成PDF文件

1. 制作模板 2. 獲取模板，并將所獲取的數據加載生成html文件 2. 生成PDF文件其中由兩個地方需要注意，都是關于獲取文件路徑的問題，由于項目部署的時候是打包成jar包形式，所以在開發過程中時直接安照傳統的獲取方法沒有一點文件，但是當打包后部署，總是出錯。于是參考網上文章，先將文件讀出來到項目的臨時目錄下，然后再按正常方式加載該臨時文件；還有一個問題至今沒有解決，就是關于生成PDF文件...

電腦空間不夠了？教你一個小秒招快速清理 Docker 占用的磁盤空間！

Docker 很占用空間，每當我們運行容器、拉取鏡像、部署應用、構建自己的鏡像時，我們的磁盤空間會被大量占用。如果你也被這個問題所困擾，咱們就一起看一下 Docker 是如何使用磁盤空間的，以及如何回收。 docker 占用的空間可以通過下面的命令查看： TYPE 列出了docker 使用磁盤的 4 種類型： Images：所有鏡像占用的空間，包括拉取下來的鏡像，和本地構建的。 Con...