PPT模板爬蟲案例

PPT模板python爬取

對http://www.ypppt.com/moban/中的ppt模板進行爬取，網站設置了一些反爬機制，需要仔細分析url地址才能正確爬取！！！

#-*- coding = utf-8 -*-
#@Time：2020-08-13 16:43
#@Author：來瓶安慕嘻
#@File：免費簡歷爬取.py
#@開始美好的一天吧 @Q_Q@

import requests
import os
from lxml import etree
import re

if __name__ == "__main__":
    url = 'http://www.ypppt.com/moban/'
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'
    }
    response = requests.get(url=url,headers=headers)
    response.encoding = 'utf-8'
    page_text = response.text

    # 創建儲存ppt模板的文件
    if not os.path.exists('./ppt模板'):
        os.mkdir('./ppt模板')

    # 創建etree對象
    tree = etree.HTML(page_text)
    # li_list 儲存首頁ppt模板的li
    li_list = tree.xpath('//ul[@class="posts clear"]/li')
    # 分析每一個li，提取里面的具體ppt的url和名稱
    for li in li_list:
        ppt_url ='http://www.ypppt.com' +li.xpath('./a[1]/@href')[0]
        ppt_name = li.xpath('./a[2]/text()')[0]
        # print(ppt_url)
        # print(ppt_name)
        # 得到每一個ppt的網頁，分析下載入口在哪，找到下載入口的url
        ppt_response = requests.get(url=ppt_url,headers = headers)
        ppt_response.encoding = 'utf-8'
        ppt_text = ppt_response.text
        ppt_tree = etree.HTML(ppt_text)
        load_path ='http://www.ypppt.com' +ppt_tree.xpath('//div[@class="button"]/a/@href')[0]
        # 找到了下載入口的網頁面，現在需要分析，找到下載按鈕在哪
        load_response = requests.get(url=load_path,headers=headers)
        load_response.encoding = 'utf-8'
        final_text = load_response.text
        final_tree = etree.HTML(final_text)
        final_url = final_tree.xpath('//ul[@class="down clear"]/li[1]/a/@href')[0]
        # 這里網站作了簡單的反爬機制，有些下載鏈接的url直接為:/uploads/soft/200810/1-200Q0113H8.zip
        # 而有些下載鏈接的url：http://www.ypppt.com/uploads/soft/200810/1-200Q0113H8.zip
        # 因此這里用正則表達式進行判斷
        if len(re.findall('http:',str(final_url))) == 0:
            final_url = 'http://www.ypppt.com' + final_url
        else:
            final_url = final_url
        # 請求下載，這里的zip也是二進制content
        final_ppt = requests.get(url = final_url,headers = headers).content

        # 將爬取的ppt儲存
        with open('./ppt模板/'+ppt_name+'.zip','wb') as fp:
            fp.write(final_ppt)
        print(ppt_name+'----下載完成')

    print('來瓶安慕嘻：爬取結束!!!!!!!')

爬取結束：
在這里插入圖片描述文件夾如上圖所示！！！

注：不要惡意爬取啊，用來學習爬蟲就行~

本文鏈接：https://blog.csdn.net/stephen_curry300/article/details/107989260

智能推薦

爬蟲案例

1.爬取百度首頁（模擬用戶回車url的操作，下載網頁到本地）或者直接使用下面的方式保存到本地系統上面兩種方法都不能下載網頁中的圖片（只能爬取網頁的源碼），使用下面的方式下載圖片 2.爬取quotes.toscrape.com 網站的名言使用正則的方式爬蟲：使用bs4的BeautifulSoup來爬蟲插曲：python中的異常講解： 3.必應詞典但是上面的方法...

freemarker + ItextRender 根據模板生成PDF文件

1. 制作模板 2. 獲取模板，并將所獲取的數據加載生成html文件 2. 生成PDF文件其中由兩個地方需要注意，都是關于獲取文件路徑的問題，由于項目部署的時候是打包成jar包形式，所以在開發過程中時直接安照傳統的獲取方法沒有一點文件，但是當打包后部署，總是出錯。于是參考網上文章，先將文件讀出來到項目的臨時目錄下，然后再按正常方式加載該臨時文件；還有一個問題至今沒有解決，就是關于生成PDF文件...

電腦空間不夠了？教你一個小秒招快速清理 Docker 占用的磁盤空間！

Docker 很占用空間，每當我們運行容器、拉取鏡像、部署應用、構建自己的鏡像時，我們的磁盤空間會被大量占用。如果你也被這個問題所困擾，咱們就一起看一下 Docker 是如何使用磁盤空間的，以及如何回收。 docker 占用的空間可以通過下面的命令查看： TYPE 列出了docker 使用磁盤的 4 種類型： Images：所有鏡像占用的空間，包括拉取下來的鏡像，和本地構建的。 Con...