• <noscript id="e0iig"><kbd id="e0iig"></kbd></noscript>
  • <td id="e0iig"></td>
  • <option id="e0iig"></option>
  • <noscript id="e0iig"><source id="e0iig"></source></noscript>
  • PPT模板爬蟲案例

    標簽: 爬蟲  python  xpath

    PPT模板python爬取

    對http://www.ypppt.com/moban/中的ppt模板進行爬取,網站設置了一些反爬機制,需要仔細分析url地址才能正確爬取!!!

    #-*- coding = utf-8 -*-
    #@Time:2020-08-13 16:43
    #@Author:來瓶安慕嘻
    #@File:免費簡歷爬取.py
    #@開始美好的一天吧 @Q_Q@
    
    import requests
    import os
    from lxml import etree
    import re
    
    if __name__ == "__main__":
        url = 'http://www.ypppt.com/moban/'
        headers = {
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'
        }
        response = requests.get(url=url,headers=headers)
        response.encoding = 'utf-8'
        page_text = response.text
    
        # 創建儲存ppt模板的文件
        if not os.path.exists('./ppt模板'):
            os.mkdir('./ppt模板')
    
        # 創建etree對象
        tree = etree.HTML(page_text)
        # li_list 儲存首頁ppt模板的li
        li_list = tree.xpath('//ul[@class="posts clear"]/li')
        # 分析每一個li,提取里面的具體ppt的url和名稱
        for li in li_list:
            ppt_url ='http://www.ypppt.com' +li.xpath('./a[1]/@href')[0]
            ppt_name = li.xpath('./a[2]/text()')[0]
            # print(ppt_url)
            # print(ppt_name)
            # 得到每一個ppt的網頁,分析下載入口在哪,找到下載入口的url
            ppt_response = requests.get(url=ppt_url,headers = headers)
            ppt_response.encoding = 'utf-8'
            ppt_text = ppt_response.text
            ppt_tree = etree.HTML(ppt_text)
            load_path ='http://www.ypppt.com' +ppt_tree.xpath('//div[@class="button"]/a/@href')[0]
            # 找到了下載入口的網頁面,現在需要分析,找到下載按鈕在哪
            load_response = requests.get(url=load_path,headers=headers)
            load_response.encoding = 'utf-8'
            final_text = load_response.text
            final_tree = etree.HTML(final_text)
            final_url = final_tree.xpath('//ul[@class="down clear"]/li[1]/a/@href')[0]
            # 這里網站作了簡單的反爬機制,有些下載鏈接的url直接為:/uploads/soft/200810/1-200Q0113H8.zip
            # 而有些下載鏈接的url:http://www.ypppt.com/uploads/soft/200810/1-200Q0113H8.zip
            # 因此這里用正則表達式進行判斷
            if len(re.findall('http:',str(final_url))) == 0:
                final_url = 'http://www.ypppt.com' + final_url
            else:
                final_url = final_url
            # 請求下載,這里的zip也是二進制content
            final_ppt = requests.get(url = final_url,headers = headers).content
    
            # 將爬取的ppt儲存
            with open('./ppt模板/'+ppt_name+'.zip','wb') as fp:
                fp.write(final_ppt)
            print(ppt_name+'----下載完成')
    
        print('來瓶安慕嘻:爬取結束!!!!!!!')
       
    
    

    爬取結束:
    在這里插入圖片描述文件夾如上圖所示!!!

    注:不要惡意爬取啊,用來學習爬蟲就行~

    版權聲明:本文為stephen_curry300原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。
    本文鏈接:https://blog.csdn.net/stephen_curry300/article/details/107989260

    智能推薦

    python 下載ppt模板小練習

    下載ppt模板~和昨天下載文檔操作幾乎一毛一樣,不多解釋啦  ...

    爬蟲案例

    1.爬取百度首頁(模擬用戶回車url的操作,下載網頁到本地) 或者直接使用下面的方式保存到本地系統 上面兩種方法都不能下載網頁中的圖片(只能爬取網頁的源碼),使用下面的方式下載圖片 2.爬取quotes.toscrape.com 網站的名言 使用正則的方式爬蟲: 使用bs4的BeautifulSoup來爬蟲   插曲:python中的異常講解:   3.必應詞典 但是上面的方法...

    HTML中常用操作關于:頁面跳轉,空格

    1.頁面跳轉 2.空格的代替符...

    freemarker + ItextRender 根據模板生成PDF文件

    1. 制作模板 2. 獲取模板,并將所獲取的數據加載生成html文件 2. 生成PDF文件 其中由兩個地方需要注意,都是關于獲取文件路徑的問題,由于項目部署的時候是打包成jar包形式,所以在開發過程中時直接安照傳統的獲取方法沒有一點文件,但是當打包后部署,總是出錯。于是參考網上文章,先將文件讀出來到項目的臨時目錄下,然后再按正常方式加載該臨時文件; 還有一個問題至今沒有解決,就是關于生成PDF文件...

    電腦空間不夠了?教你一個小秒招快速清理 Docker 占用的磁盤空間!

    Docker 很占用空間,每當我們運行容器、拉取鏡像、部署應用、構建自己的鏡像時,我們的磁盤空間會被大量占用。 如果你也被這個問題所困擾,咱們就一起看一下 Docker 是如何使用磁盤空間的,以及如何回收。 docker 占用的空間可以通過下面的命令查看: TYPE 列出了docker 使用磁盤的 4 種類型: Images:所有鏡像占用的空間,包括拉取下來的鏡像,和本地構建的。 Con...

    猜你喜歡

    requests實現全自動PPT模板

    http://www.1ppt.com/moban/ 可以免費的下載PPT模板,當然如果要人工一個個下,還是挺麻煩的,我們可以利用requests輕松下載 訪問這個主頁,我們可以看到下面的樣式 點每一個PPT模板的圖片,我們可以進入到詳細的信息頁面,翻到下面,我們可以看到對應的下載地址 點擊這個下載的按鈕,我們便可以下載對應的PPT壓縮包 那我們就開始做吧 首先,查看網頁的源代碼,我們可以看到每一...

    Linux C系統編程-線程互斥鎖(四)

    互斥鎖 互斥鎖也是屬于線程之間處理同步互斥方式,有上鎖/解鎖兩種狀態。 互斥鎖函數接口 1)初始化互斥鎖 pthread_mutex_init() man 3 pthread_mutex_init (找不到的情況下首先 sudo apt-get install glibc-doc sudo apt-get install manpages-posix-dev) 動態初始化 int pthread_...

    統計學習方法 - 樸素貝葉斯

    引入問題:一機器在良好狀態生產合格產品幾率是 90%,在故障狀態生產合格產品幾率是 30%,機器良好的概率是 75%。若一日第一件產品是合格品,那么此日機器良好的概率是多少。 貝葉斯模型 生成模型與判別模型 判別模型,即要判斷這個東西到底是哪一類,也就是要求y,那就用給定的x去預測。 生成模型,是要生成一個模型,那就是誰根據什么生成了模型,誰就是類別y,根據的內容就是x 以上述例子,判斷一個生產出...

    styled-components —— React 中的 CSS 最佳實踐

    https://zhuanlan.zhihu.com/p/29344146 Styled-components 是目前 React 樣式方案中最受關注的一種,它既具備了 css-in-js 的模塊化與參數化優點,又完全使用CSS的書寫習慣,不會引起額外的學習成本。本文是 styled-components 作者之一 Max Stoiber 所寫,首先總結了前端組件化樣式中的最佳實踐原則,然后在此基...

    精品国产乱码久久久久久蜜桃不卡