Python爬蟲（九）——京東比價定向爬蟲

def getHTMLText(url):
    try: # 利用前面的代碼框架返回頁面的text
        r=requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return ''

這時我們發現無法得到結果，查看后發現界面跳轉到了登錄界面，于是我們加入cookies參數來解決這個問題。

那么如何得到cookie呢？我們打開這個網頁，按下f12打開開發者模式：

developer

然后選中network刷新一下界面，在最上面找到Search?keyword=這個包：

searchpacket

然后我們在右邊的Request Hearders中就能找到自己的cookie：

requestheaders

代碼：

def getHTMLText(url):
    try:  # 利用前面的代碼框架返回頁面的text
        r = requests.get(url, timeout=30, headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'}, cookies={
                         'cookie': '你的cookie'})
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ''

parsePage(ilt, html)

我們首先打開網頁的源代碼找到商品的信息。

goodsinfo

我們發現淘寶商品的名字在標簽em中且都有相機，而價格在標簽i中且都是由數字.數字組成，于是利用以下兩個正則表達式表示：

#價格
r'\<i\>[\d]*\.[\d]*\<\/i\>'
#商品名稱
r'\<em\>.*相機.*\<\/em\>'

那么方法的代碼為：

def parsePage(ilt, html):
    try:
        # 商品價格由數字和小數點組成所以用[\d.]*\.[\d]*來表示
        plt = re.findall(r'\<i\>[\d]*\.[\d]*\<\/i\>', html)
        tlt = re.findall(r'\<em\>.*相機.*\<\/em\>', html)
        for i in range(len(plt)):
            price = plt[i][3:-4]  # 直接利用python字符串特性得到價格
            if re.findall(r'.*京品數碼.*', tlt[i]) or re.findall(r'.*京東國際.*', tlt[i]) or re.findall(r'.*京東超市.*', tlt[i]):
                print('here')
                # 通過最小匹配來得到第一個<之前的內容
                title = re.findall(r'span\>.*?\<', tlt[i])[0][5:-1]+'相機'
            else:
                # 同樣的方法獲得其他類型商品名稱
                title = re.findall(r'em\>.*?\<', tlt[i])[0][3:-1]+'相機'
            ilt.append([price, title])
    except:
        print("")

printGoodLists(ilt)

最后將結果打印出來，這里我也遇到了一些問題：無法打印出界面中所有的商品，我用BeautifulSoup+re分析也是同樣的結果，如果你知道問題的所在希望能夠給我留言或者私信我。

def printGoodLists(ilt):
    tplt = "{:4}\t{:8}\t{:16}"  # 給出打印模板，第一個長度為4，第二個長度為8，最后一個長度為16
    print(tplt.format("序號", "價格", "商品名稱"))
    count = 0
    for goods in ilt:
        count += 1
        print(tplt.format(count, goods[0], goods[1]))
    print("")

完整代碼

#encoding='utf-8

import requests
import re


def getHTMLText(url):
    try:  # 利用前面的代碼框架返回頁面的text
        r = requests.get(url, timeout=30, headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'}, cookies={
                         'cookie': '你的cookie'})
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ''


def parsePage(ilt, html):
    try:
        # 商品價格由數字和小數點組成所以用[\d.]*\.[\d]*來表示
        plt = re.findall(r'\<i\>[\d]*\.[\d]*\<\/i\>', html)
        tlt = re.findall(r'\<em\>.*相機.*\<\/em\>', html)
        for i in range(len(plt)):
            price = plt[i][3:-4]  # 直接利用python字符串特性得到價格
            if re.findall(r'.*京品數碼.*', tlt[i]) or re.findall(r'.*京東國際.*', tlt[i]) or re.findall(r'.*京東超市.*', tlt[i]):
                # 通過最小匹配來得到第一個<之前的內容
                title = re.findall(r'span\>.*?\<', tlt[i])[0][5:-1]+'相機'
            else:
                # 同樣的方法獲得其他類型商品名稱
                title = re.findall(r'em\>.*?\<', tlt[i])[0][3:-1]+'相機'
            ilt.append([price, title])
    except:
        print("")


def printGoodLists(ilt):
    tplt = "{:4}\t{:8}\t{:16}"  # 給出打印模板，第一個長度為4，第二個長度為8，最后一個長度為16
    print(tplt.format("序號", "價格", "商品名稱"))
    count = 0
    for goods in ilt:
        count += 1
        print(tplt.format(count, goods[0], goods[1]))
    print("")


goods = '相機'
depth = 3
startUrl = 'https://search.jd.com/Search?keyword='+goods+'&enc=utf-8'
infoList = []
for i in range(depth):  # 這里通過循環來查詢多個頁面并保存再infoList中
    try:
        page = i*2+1
        url = startUrl+'&page='+str(page)  # 利用之前觀察的頁面url來設定每個頁面的url
        html = getHTMLText(url)
        parsePage(infoList, html)
    except:
        continue
printGoodLists(infoList)

運行結果：

運行結果

本文鏈接：https://blog.csdn.net/qq_18543557/article/details/104203712

智能推薦

網絡爬蟲之實戰 4-2 淘寶商品比價定向爬蟲

文章截圖均來自中國大學mooc Python網絡爬蟲與信息提取的教程，以上僅作為我的個人學習筆記。下面是教程鏈接：https://www.icourse163.org/learn/BIT-1001870001?tid=1450316449#/learn/content?type=detail&id=1214620493&cid=1218397635&replay=true...

爬蟲03_re庫03_淘寶商品比價定向爬蟲

1.實例分析定向爬蟲可行性：訪問https://www.taobao.com/robots.txt 得User-agent: Baiduspider Disallow: / User-agent: baiduspider Disallow: / 這里對根目錄進行限制，但我們僅是拿來學習技術實現，不做商業用途且騷擾。 2.程序結構設計 3.代碼實現關于寫headers信息：...

優化淘寶商品比價定向爬蟲--爬蟲的瀏覽器偽裝

優化淘寶商品比價定向爬蟲--爬蟲的瀏覽器偽裝原代碼問題淘寶Robots協議 User-Agent 查找headers和cookie 完整代碼原代碼問題爬取不到任何內容處理原因：由于淘寶的設置，雖然可以requests爬取頁面內容，但正則表達式會匹配不到任何內容；解決：替換headers，偽裝瀏覽器向服務器發起請求淘寶Robots協議 Robots協議，是國際上搜索引擎對所有網站內容抓...

freemarker + ItextRender 根據模板生成PDF文件

1. 制作模板 2. 獲取模板，并將所獲取的數據加載生成html文件 2. 生成PDF文件其中由兩個地方需要注意，都是關于獲取文件路徑的問題，由于項目部署的時候是打包成jar包形式，所以在開發過程中時直接安照傳統的獲取方法沒有一點文件，但是當打包后部署，總是出錯。于是參考網上文章，先將文件讀出來到項目的臨時目錄下，然后再按正常方式加載該臨時文件；還有一個問題至今沒有解決，就是關于生成PDF文件...