python——爬蟲學習——Scrapy爬蟲框架入門-(6)
Scrapy,Python開發的一個快速,高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結構化的數據。Scrapy用途廣泛,可以用于數據挖掘、監測和自動化測試。
一、”5+2”結構
1.Engine(引擎)
控制所有模塊之間的數據流,根據條件觸發事件
不需要用戶修改
2.Downloader(下載器)
根據請求下載網頁
不需要用戶修改
3.Scheduler(調度器)
對所有爬取請求進行調度管理
不需要用戶修改
4.Downloader Middlewares(下載器中間件)
處理引擎與下載器之間的請求及響應
5.Spider(蜘蛛)
解析Downloader返回的響應(Response)
產生爬取項(scraped item)
產生額外的爬取請求(Request)
用戶編寫(配置)
6.Item Pipelines(項目管道)
以流水線處理Spiders爬取項
由一組操作順序組成類似流水線,每個操作是一個ItemPipeline類型
可能操作包括:清理、檢驗和查重爬取項中的HTML數據,將數據存儲到數據庫
用戶編寫(配置)
7.Spider Middleware(蜘蛛中間件)
處理蜘蛛的響應輸入和請求輸出
8.Scheduler Middlewares(調度中間件)
處理引擎發送到調度的請求和響應
二、Scrapy的安裝
pip install scrapy
安裝完成后,通過:
scrapy -h
測試安裝完成
三、Scrapy命令
1.命令格式
>scrapy <command> [options] [args]
2.常用命令
命令 | 說明 | 格式 |
---|---|---|
startproject | 創建一個新工程 | scrapy startproject [dir] |
genspider | 創建一個爬蟲 | scrapy genspider [options] |
settings | 獲得爬蟲配置信息 | scrapy settings [options] |
crawl | 運行一個爬蟲 | scrapy crawl |
list | 列出工程中所有爬蟲 | scrapy list |
shell | 啟動URL調試命令行 | scrapy shell [url] |
3.建立一個Scrapy爬蟲
>scrapy startproject spiders_test
>cd spiders_test
>scrapy genspider test baidu.com
test.py:
# -*- coding: utf-8 -*-
import scrapy
class TestSpider(scrapy.Spider):
name = 'test'
#allowed_domains = ['baidu.com']
start_urls = ['https://tieba.baidu.com/f?kw=wwe']
def parse(self, response):
fname = response.url.split('=')[-1]
with open(fname, 'wb') as f:
f.write(response.body)
self.log('Saved file %s.' % name)
運行:
>scrapy crawl test
智能推薦
python:Scrapy框架爬蟲入門學習
Scrapy框架 Scrapy是Python實現的屏幕抓取和web爬取框架,用于抓取web站點并從頁面中提取結構化的數據。 Scrapy:任何人都可以根據需求來修改。 Scrapy架構 Scrapy框架的安裝(Anaconda) 比較具體的安裝可以參照我下面鏈接里的博客,博主已經講述的很清楚了。我這里只是說明自己的安裝過程。 由于我使用的是Anaconda+pycharm,所以先嘗試了用pip安裝...
Scrapy爬蟲框架入門(中) - Item Pipeline
更多文章請關注公眾號「我偶像龜叔」 當Item在Spider中被收集之后,它將會被傳遞到Item Pipeline,此時這里可以看作框架模型(model)。 item pipeline常見實現示例: 將爬取結果保存到 數據庫 中 下載項目圖片(item返回包含圖片字段) 數據清理、查重、驗證 … 本次案例會延伸上一篇文章,閱讀之前可以回顧上一篇文章。 Scrapy爬蟲框架入門(上) ...
Python爬蟲入門五(Scrapy爬蟲框架)
目錄 一、Scrapy架構流程 1.簡介 2.優勢 3.架構流程圖 4.組件 二、Scrapy爬蟲步驟 三、案例(三國演義名著定向爬蟲項目) 1.新建Scrapy項目 2.明確目標(items.py) 3、制作爬蟲 4、存儲數據 一、Scrapy架構流程 1.簡介 Scrapy,Python開發的一個快速、高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結...
Python Scrapy爬蟲框架學習
一、Scrapy框架簡介 Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架。 可以應用在包括數據挖掘,信息處理或存儲歷史數據等一系列的程序中。 其最初是為了 頁面抓取 (更確切來說, 網絡抓取 )所設計的, 也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。 二、架構流程圖 接下來的圖表展...
猜你喜歡
freemarker + ItextRender 根據模板生成PDF文件
1. 制作模板 2. 獲取模板,并將所獲取的數據加載生成html文件 2. 生成PDF文件 其中由兩個地方需要注意,都是關于獲取文件路徑的問題,由于項目部署的時候是打包成jar包形式,所以在開發過程中時直接安照傳統的獲取方法沒有一點文件,但是當打包后部署,總是出錯。于是參考網上文章,先將文件讀出來到項目的臨時目錄下,然后再按正常方式加載該臨時文件; 還有一個問題至今沒有解決,就是關于生成PDF文件...
電腦空間不夠了?教你一個小秒招快速清理 Docker 占用的磁盤空間!
Docker 很占用空間,每當我們運行容器、拉取鏡像、部署應用、構建自己的鏡像時,我們的磁盤空間會被大量占用。 如果你也被這個問題所困擾,咱們就一起看一下 Docker 是如何使用磁盤空間的,以及如何回收。 docker 占用的空間可以通過下面的命令查看: TYPE 列出了docker 使用磁盤的 4 種類型: Images:所有鏡像占用的空間,包括拉取下來的鏡像,和本地構建的。 Con...
requests實現全自動PPT模板
http://www.1ppt.com/moban/ 可以免費的下載PPT模板,當然如果要人工一個個下,還是挺麻煩的,我們可以利用requests輕松下載 訪問這個主頁,我們可以看到下面的樣式 點每一個PPT模板的圖片,我們可以進入到詳細的信息頁面,翻到下面,我們可以看到對應的下載地址 點擊這個下載的按鈕,我們便可以下載對應的PPT壓縮包 那我們就開始做吧 首先,查看網頁的源代碼,我們可以看到每一...
Linux C系統編程-線程互斥鎖(四)
互斥鎖 互斥鎖也是屬于線程之間處理同步互斥方式,有上鎖/解鎖兩種狀態。 互斥鎖函數接口 1)初始化互斥鎖 pthread_mutex_init() man 3 pthread_mutex_init (找不到的情況下首先 sudo apt-get install glibc-doc sudo apt-get install manpages-posix-dev) 動態初始化 int pthread_...