• <noscript id="e0iig"><kbd id="e0iig"></kbd></noscript>
  • <td id="e0iig"></td>
  • <option id="e0iig"></option>
  • <noscript id="e0iig"><source id="e0iig"></source></noscript>
  • python——爬蟲學習——Scrapy爬蟲框架入門-(6)

    標簽: python  爬蟲  scrapy-爬蟲  框架

    Scrapy,Python開發的一個快速,高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結構化的數據。Scrapy用途廣泛,可以用于數據挖掘、監測和自動化測試。

    一、”5+2”結構

    5+2

    1.Engine(引擎)

    控制所有模塊之間的數據流,根據條件觸發事件
    

    不需要用戶修改

    2.Downloader(下載器)

    根據請求下載網頁
    

    不需要用戶修改

    3.Scheduler(調度器)

    對所有爬取請求進行調度管理
    

    不需要用戶修改

    4.Downloader Middlewares(下載器中間件)

    處理引擎與下載器之間的請求及響應
    

    5.Spider(蜘蛛)

    解析Downloader返回的響應(Response)
    產生爬取項(scraped item)
    產生額外的爬取請求(Request)
    

    用戶編寫(配置)

    6.Item Pipelines(項目管道)

    以流水線處理Spiders爬取項
    由一組操作順序組成類似流水線,每個操作是一個ItemPipeline類型
    可能操作包括:清理、檢驗和查重爬取項中的HTML數據,將數據存儲到數據庫
    

    用戶編寫(配置)

    7.Spider Middleware(蜘蛛中間件)

    處理蜘蛛的響應輸入和請求輸出
    

    8.Scheduler Middlewares(調度中間件)

    處理引擎發送到調度的請求和響應
    

    二、Scrapy的安裝

    pip install scrapy
    

    安裝完成后,通過:

    scrapy -h
    

    測試安裝完成

    三、Scrapy命令

    1.命令格式

    >scrapy <command> [options] [args]
    

    2.常用命令

    命令 說明 格式
    startproject 創建一個新工程 scrapy startproject [dir]
    genspider 創建一個爬蟲 scrapy genspider [options]
    settings 獲得爬蟲配置信息 scrapy settings [options]
    crawl 運行一個爬蟲 scrapy crawl
    list 列出工程中所有爬蟲 scrapy list
    shell 啟動URL調試命令行 scrapy shell [url]

    3.建立一個Scrapy爬蟲

    >scrapy startproject spiders_test
    >cd spiders_test
    >scrapy genspider test baidu.com
    

    test.py:

    # -*- coding: utf-8 -*-
    import scrapy
    
    
    class TestSpider(scrapy.Spider):
        name = 'test'
        #allowed_domains = ['baidu.com']
        start_urls = ['https://tieba.baidu.com/f?kw=wwe']
    
        def parse(self, response):
            fname = response.url.split('=')[-1]
            with open(fname, 'wb') as f:
                f.write(response.body)
            self.log('Saved file %s.' % name)
    

    運行:

    >scrapy crawl test
    
    版權聲明:本文為Zach_z原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。
    本文鏈接:https://blog.csdn.net/Zach_z/article/details/72840409

    智能推薦

    python:Scrapy框架爬蟲入門學習

    Scrapy框架 Scrapy是Python實現的屏幕抓取和web爬取框架,用于抓取web站點并從頁面中提取結構化的數據。 Scrapy:任何人都可以根據需求來修改。 Scrapy架構 Scrapy框架的安裝(Anaconda) 比較具體的安裝可以參照我下面鏈接里的博客,博主已經講述的很清楚了。我這里只是說明自己的安裝過程。 由于我使用的是Anaconda+pycharm,所以先嘗試了用pip安裝...

    Scrapy爬蟲框架入門(中) - Item Pipeline

    更多文章請關注公眾號「我偶像龜叔」 當Item在Spider中被收集之后,它將會被傳遞到Item Pipeline,此時這里可以看作框架模型(model)。 item pipeline常見實現示例: 將爬取結果保存到 數據庫 中 下載項目圖片(item返回包含圖片字段) 數據清理、查重、驗證 … 本次案例會延伸上一篇文章,閱讀之前可以回顧上一篇文章。 Scrapy爬蟲框架入門(上) ...

    Python爬蟲入門五(Scrapy爬蟲框架)

    目錄  一、Scrapy架構流程 1.簡介 2.優勢 3.架構流程圖 4.組件 二、Scrapy爬蟲步驟 三、案例(三國演義名著定向爬蟲項目) 1.新建Scrapy項目 2.明確目標(items.py) 3、制作爬蟲 4、存儲數據  一、Scrapy架構流程 1.簡介 Scrapy,Python開發的一個快速、高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結...

    Python Scrapy爬蟲框架學習

      一、Scrapy框架簡介 Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架。 可以應用在包括數據挖掘,信息處理或存儲歷史數據等一系列的程序中。 其最初是為了 頁面抓取 (更確切來說, 網絡抓取 )所設計的, 也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。 二、架構流程圖 接下來的圖表展...

    HTML中常用操作關于:頁面跳轉,空格

    1.頁面跳轉 2.空格的代替符...

    猜你喜歡

    freemarker + ItextRender 根據模板生成PDF文件

    1. 制作模板 2. 獲取模板,并將所獲取的數據加載生成html文件 2. 生成PDF文件 其中由兩個地方需要注意,都是關于獲取文件路徑的問題,由于項目部署的時候是打包成jar包形式,所以在開發過程中時直接安照傳統的獲取方法沒有一點文件,但是當打包后部署,總是出錯。于是參考網上文章,先將文件讀出來到項目的臨時目錄下,然后再按正常方式加載該臨時文件; 還有一個問題至今沒有解決,就是關于生成PDF文件...

    電腦空間不夠了?教你一個小秒招快速清理 Docker 占用的磁盤空間!

    Docker 很占用空間,每當我們運行容器、拉取鏡像、部署應用、構建自己的鏡像時,我們的磁盤空間會被大量占用。 如果你也被這個問題所困擾,咱們就一起看一下 Docker 是如何使用磁盤空間的,以及如何回收。 docker 占用的空間可以通過下面的命令查看: TYPE 列出了docker 使用磁盤的 4 種類型: Images:所有鏡像占用的空間,包括拉取下來的鏡像,和本地構建的。 Con...

    requests實現全自動PPT模板

    http://www.1ppt.com/moban/ 可以免費的下載PPT模板,當然如果要人工一個個下,還是挺麻煩的,我們可以利用requests輕松下載 訪問這個主頁,我們可以看到下面的樣式 點每一個PPT模板的圖片,我們可以進入到詳細的信息頁面,翻到下面,我們可以看到對應的下載地址 點擊這個下載的按鈕,我們便可以下載對應的PPT壓縮包 那我們就開始做吧 首先,查看網頁的源代碼,我們可以看到每一...

    Linux C系統編程-線程互斥鎖(四)

    互斥鎖 互斥鎖也是屬于線程之間處理同步互斥方式,有上鎖/解鎖兩種狀態。 互斥鎖函數接口 1)初始化互斥鎖 pthread_mutex_init() man 3 pthread_mutex_init (找不到的情況下首先 sudo apt-get install glibc-doc sudo apt-get install manpages-posix-dev) 動態初始化 int pthread_...

    精品国产乱码久久久久久蜜桃不卡