python——爬蟲學習——Scrapy爬蟲框架入門-(6)

Scrapy，Python開發的一個快速,高層次的屏幕抓取和web抓取框架，用于抓取web站點并從頁面中提取結構化的數據。Scrapy用途廣泛，可以用于數據挖掘、監測和自動化測試。

一、”5+2”結構

5+2

1.Engine(引擎)

控制所有模塊之間的數據流，根據條件觸發事件

不需要用戶修改

2.Downloader(下載器)

根據請求下載網頁

不需要用戶修改

3.Scheduler(調度器)

對所有爬取請求進行調度管理

不需要用戶修改

4.Downloader Middlewares(下載器中間件)

處理引擎與下載器之間的請求及響應

5.Spider(蜘蛛)

解析Downloader返回的響應(Response)
產生爬取項(scraped item)
產生額外的爬取請求(Request)

用戶編寫(配置)

6.Item Pipelines(項目管道)

以流水線處理Spiders爬取項
由一組操作順序組成類似流水線，每個操作是一個ItemPipeline類型
可能操作包括:清理、檢驗和查重爬取項中的HTML數據，將數據存儲到數據庫

用戶編寫(配置)

7.Spider Middleware(蜘蛛中間件)

處理蜘蛛的響應輸入和請求輸出

8.Scheduler Middlewares(調度中間件)

處理引擎發送到調度的請求和響應

二、Scrapy的安裝

pip install scrapy

安裝完成后，通過:

scrapy -h

測試安裝完成

三、Scrapy命令

1.命令格式

>scrapy <command> [options] [args]

2.常用命令

命令	說明	格式
startproject	創建一個新工程	scrapy startproject [dir]
genspider	創建一個爬蟲	scrapy genspider [options]
settings	獲得爬蟲配置信息	scrapy settings [options]
crawl	運行一個爬蟲	scrapy crawl
list	列出工程中所有爬蟲	scrapy list
shell	啟動URL調試命令行	scrapy shell [url]

3.建立一個Scrapy爬蟲

>scrapy startproject spiders_test
>cd spiders_test
>scrapy genspider test baidu.com

test.py：

# -*- coding: utf-8 -*-
import scrapy


class TestSpider(scrapy.Spider):
    name = 'test'
    #allowed_domains = ['baidu.com']
    start_urls = ['https://tieba.baidu.com/f?kw=wwe']

    def parse(self, response):
        fname = response.url.split('=')[-1]
        with open(fname, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s.' % name)

運行:

>scrapy crawl test

本文鏈接：https://blog.csdn.net/Zach_z/article/details/72840409

智能推薦

python:Scrapy框架爬蟲入門學習

Scrapy框架 Scrapy是Python實現的屏幕抓取和web爬取框架，用于抓取web站點并從頁面中提取結構化的數據。 Scrapy:任何人都可以根據需求來修改。 Scrapy架構 Scrapy框架的安裝（Anaconda) 比較具體的安裝可以參照我下面鏈接里的博客，博主已經講述的很清楚了。我這里只是說明自己的安裝過程。由于我使用的是Anaconda+pycharm，所以先嘗試了用pip安裝...

Scrapy爬蟲框架入門（中） - Item Pipeline

更多文章請關注公眾號「我偶像龜叔」當Item在Spider中被收集之后，它將會被傳遞到Item Pipeline，此時這里可以看作框架模型(model)。 item pipeline常見實現示例：將爬取結果保存到數據庫中下載項目圖片(item返回包含圖片字段) 數據清理、查重、驗證 … 本次案例會延伸上一篇文章，閱讀之前可以回顧上一篇文章。 Scrapy爬蟲框架入門（上） ...

Python爬蟲入門五（Scrapy爬蟲框架）

目錄一、Scrapy架構流程 1.簡介 2.優勢 3.架構流程圖 4.組件二、Scrapy爬蟲步驟三、案例（三國演義名著定向爬蟲項目） 1.新建Scrapy項目 2.明確目標（items.py) 3、制作爬蟲 4、存儲數據一、Scrapy架構流程 1.簡介 Scrapy，Python開發的一個快速、高層次的屏幕抓取和web抓取框架，用于抓取web站點并從頁面中提取結...

Python Scrapy爬蟲框架學習

一、Scrapy框架簡介 Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。其最初是為了頁面抓取 (更確切來說, 網絡抓取 )所設計的，也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。二、架構流程圖接下來的圖表展...

HTML中常用操作關于：頁面跳轉，空格

1.頁面跳轉 2.空格的代替符...

python——爬蟲學習——Scrapy爬蟲框架入門-(6)

一、”5+2”結構

1.Engine(引擎)

2.Downloader(下載器)

3.Scheduler(調度器)

4.Downloader Middlewares(下載器中間件)

5.Spider(蜘蛛)

6.Item Pipelines(項目管道)

7.Spider Middleware(蜘蛛中間件)

8.Scheduler Middlewares(調度中間件)

二、Scrapy的安裝

三、Scrapy命令

1.命令格式

2.常用命令

3.建立一個Scrapy爬蟲

智能推薦

猜你喜歡