• <noscript id="e0iig"><kbd id="e0iig"></kbd></noscript>
  • <td id="e0iig"></td>
  • <option id="e0iig"></option>
  • <noscript id="e0iig"><source id="e0iig"></source></noscript>
  • requests實現全自動PPT模板

    標簽: python  # 爬蟲  # 從零開始入門爬蟲

    requests

    http://www.1ppt.com/moban/ 可以免費的下載PPT模板,當然如果要人工一個個下,還是挺麻煩的,我們可以利用requests輕松下載

    訪問這個主頁,我們可以看到下面的樣式
    moban

    點每一個PPT模板的圖片,我們可以進入到詳細的信息頁面,翻到下面,我們可以看到對應的下載地址

    download

    點擊這個下載的按鈕,我們便可以下載對應的PPT壓縮包

    那我們就開始做吧
    首先,查看網頁的源代碼,我們可以看到每一個顯示的li都有對應的PPT詳細的鏈接,我們只要訪問這個鏈接,然后找到按鈕下載即可

    source

    首先導入相關的庫

    # 導入requests庫
    import requests
    # 導入正則庫進行信息提取
    import re 
    

    獲取網頁源代碼

    url = "http://www.1ppt.com/moban/"
    
    # 設置請求頭
    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36"}
    
    r = requests.get(url, headers=header)
    
    try:
        # 如果請求失敗的話進行處理
        r.raise_for_status()
    except:
        print(f"請求 {r.url} 失敗")
    else:
        r.encoding = r.apparent_encoding
        html = r.text
    

    提取對應的網址

    # 先獲取整個 tplist
    tplist = re.findall(r'<ul class="tplist">(.*?)</ul>', html, re.S)[0]
    

    tplist

    # 每一個li元素中包含多個需要的 鏈接,我們取第一個即可
    # 獲取界面中需要的所有的鏈接
    link_list = re.findall(r"<li>.*?<a href=\"(.*?)\"", tplist)
    

    到詳細網址里面找到下載地址

    download

    
    for link in link_list:
        if not link.startswith("http"):  # 如果不是絕對地址
            link = "http://www.1ppt.com" + link
        response = requests.get(link, headers=header)  # 請求對應的地址
        try:
            response.raise_for_status()
        except:
           print(f"請求 {response.url} 失敗")
        else:
            link_text = response.text 
            download_url = re.findall(r"<ul class=\"downurllist\">.*?<li.*?href=\"(.*?)\".*?</li>.*?</ul>",link_text, re.S)[0]
    

    下載對應的文件

    ppt = requests.get(download_url, headers=header) # 請求對應的文件
    filename = re.findall(r"<title>(.*?)</title>", link_text, re.S)[0] # 文件名,亦可以自定義,但不能重復
    with open(filename+".zip", "wb") as f: # 以二進制的形式寫入文件
        f.write(ppt.content)
    

    當然這只是第一頁,我們還可以對其他頁面的PPT進行下載
    我們隨機訪問幾個頁面,發現其url如下:

    http://www.1ppt.com/moban/ppt_moban_6.html
    http://www.1ppt.com/moban/ppt_moban_7.html
    

    然后試試一個頁面也滿足這個方式,所以我們只需要進行一個循環,不斷訪問下載即可

    比如:

    num = 1
    while True:
      downloadPPT(url="http://www.1ppt.com/moban/ppt_moban_{}.html".format(num))
      num+=1
    

    如果中間報錯,直接停下來即可

    源碼下載,可以回復PPT

    cyberist

    版權聲明:本文為weixin_44676081原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。
    本文鏈接:https://blog.csdn.net/weixin_44676081/article/details/105517916

    智能推薦

    hadoop實現自動打包并提交到集群(完全自動)

    話不多說,直接上效果圖。 可以看到代碼是在集群上運行的而不是在本地。 而且我所說的自動不是其他博客說的那樣還要自己手動打jar包然后在eclipse中通過代碼傳到集群上,而是在eclipse上運行這段代碼會自動把jar包打好然后自動上傳到集群上 完全不用手! 完全不用手! 完全不用手! 非常方便!!! 示例 鏈接:https://pan.baidu.com/s/1KVvwsHLEI0CHdhiwc...

    AutoJs學習-2048全自動

    往期文章分享 點擊跳轉=>《導航貼》- Unity手冊,系統實戰學習 點擊跳轉=>《導航貼》- Android手冊,重溫移動開發 ??關于作者 眾所周知,人生是一個漫長的流程,不斷克服困難,不斷反思前進的過程。在這個過程中會產生很多對于人生的質疑和思考,于是我決定將自己的思考,經驗和故事全部分享出來,以此尋找共鳴 !!! 專注于Android/Unity和各種游戲開發技巧,以及各種資源...

    HTML中常用操作關于:頁面跳轉,空格

    1.頁面跳轉 2.空格的代替符...

    freemarker + ItextRender 根據模板生成PDF文件

    1. 制作模板 2. 獲取模板,并將所獲取的數據加載生成html文件 2. 生成PDF文件 其中由兩個地方需要注意,都是關于獲取文件路徑的問題,由于項目部署的時候是打包成jar包形式,所以在開發過程中時直接安照傳統的獲取方法沒有一點文件,但是當打包后部署,總是出錯。于是參考網上文章,先將文件讀出來到項目的臨時目錄下,然后再按正常方式加載該臨時文件; 還有一個問題至今沒有解決,就是關于生成PDF文件...

    電腦空間不夠了?教你一個小秒招快速清理 Docker 占用的磁盤空間!

    Docker 很占用空間,每當我們運行容器、拉取鏡像、部署應用、構建自己的鏡像時,我們的磁盤空間會被大量占用。 如果你也被這個問題所困擾,咱們就一起看一下 Docker 是如何使用磁盤空間的,以及如何回收。 docker 占用的空間可以通過下面的命令查看: TYPE 列出了docker 使用磁盤的 4 種類型: Images:所有鏡像占用的空間,包括拉取下來的鏡像,和本地構建的。 Con...

    猜你喜歡

    requests實現全自動PPT模板

    http://www.1ppt.com/moban/ 可以免費的下載PPT模板,當然如果要人工一個個下,還是挺麻煩的,我們可以利用requests輕松下載 訪問這個主頁,我們可以看到下面的樣式 點每一個PPT模板的圖片,我們可以進入到詳細的信息頁面,翻到下面,我們可以看到對應的下載地址 點擊這個下載的按鈕,我們便可以下載對應的PPT壓縮包 那我們就開始做吧 首先,查看網頁的源代碼,我們可以看到每一...

    Linux C系統編程-線程互斥鎖(四)

    互斥鎖 互斥鎖也是屬于線程之間處理同步互斥方式,有上鎖/解鎖兩種狀態。 互斥鎖函數接口 1)初始化互斥鎖 pthread_mutex_init() man 3 pthread_mutex_init (找不到的情況下首先 sudo apt-get install glibc-doc sudo apt-get install manpages-posix-dev) 動態初始化 int pthread_...

    統計學習方法 - 樸素貝葉斯

    引入問題:一機器在良好狀態生產合格產品幾率是 90%,在故障狀態生產合格產品幾率是 30%,機器良好的概率是 75%。若一日第一件產品是合格品,那么此日機器良好的概率是多少。 貝葉斯模型 生成模型與判別模型 判別模型,即要判斷這個東西到底是哪一類,也就是要求y,那就用給定的x去預測。 生成模型,是要生成一個模型,那就是誰根據什么生成了模型,誰就是類別y,根據的內容就是x 以上述例子,判斷一個生產出...

    styled-components —— React 中的 CSS 最佳實踐

    https://zhuanlan.zhihu.com/p/29344146 Styled-components 是目前 React 樣式方案中最受關注的一種,它既具備了 css-in-js 的模塊化與參數化優點,又完全使用CSS的書寫習慣,不會引起額外的學習成本。本文是 styled-components 作者之一 Max Stoiber 所寫,首先總結了前端組件化樣式中的最佳實踐原則,然后在此基...

    精品国产乱码久久久久久蜜桃不卡