• <noscript id="e0iig"><kbd id="e0iig"></kbd></noscript>
  • <td id="e0iig"></td>
  • <option id="e0iig"></option>
  • <noscript id="e0iig"><source id="e0iig"></source></noscript>
  • DC學院數據分析學習筆記(二):爬蟲需要的HTML

    關于html,之前也稍微了解過一些,又碰到了,那么就系統的學習一下

    HTML

    超文本標記語言(HyperText Markup Language,簡稱:HTML)是一種用于創建網頁的標準標記語言。

    什么是 HTML?

    HTML 是用來描述網頁的一種語言。

    • HTML 指的是超文本標記語言 (Hyper Text Markup Language)
    • HTML 不是一種編程語言,而是一種標記語言 (markup language)
    • 標記語言是一套標記標簽 (markup tag)
    • HTML 使用標記標簽來描述網頁
    • HTML 文檔包含了HTML 標簽及文本內容
    • HTML文檔也叫做 web 頁面

    HTML代碼的一般形式

    一個基本的網頁代碼框架:

    <!DOCTYPE html>
    <html>
    
    <head>
    <title>文檔標題</title>
    </head>
    
    <body>
    文檔內容......
    </body>
    
    </html>

    標簽基本格式:<標簽名 屬性名1=“屬性值” 屬性名2=“屬性值” ……>文件內容標簽名>

    <! DOCTYPE html>:用于代碼開頭指定html版本等信息
    
    <html></html>:告知瀏覽器這是一個 HTML 文檔,是 HTML 文檔中最外層的元素
    
    <head></head>:所有頭部元素的容器,必須包含文檔的標題(title),可以包含腳本、樣式、meta 信息以及其他
    
    <title></title>:定義文檔的標題,定義瀏覽器工具欄中的標題,顯示在搜索引擎結果中的頁面標題
    
    <body></body>:定義文檔的主體,包含文檔的所有內容(比如文本、超鏈接、圖像、表格和列表等)
    
    <h1></h1>:定義 HTML 標題,從<h1>到<h6>標題的重要程度逐漸降低
    
    <p></p>:定義段落,瀏覽器會自動在其前后創建一些空白
    
    <br>:一個簡單的換行符,是一個空標簽,意味著它沒有結束標簽。
    
    <div></div>:定義 HTML 文檔中的一個分隔區塊或者一個區域部分。經常與 CSS 一起使用,用來布局網頁。

    用菜鳥教程的HTML網頁結構舉個例子:

    image

    HTML鏈接語法

    <a href="url">Link text</a>:href 屬性規定鏈接的目標。
    <a href="form.html">Fill Our Form</a>:指向同一服務器同一目錄下的form.html
    <a href="../parent.html">Parent</a>:指向同一服務器父目錄下的parent.html
    <a href="stuff/cat.html">Catalog</a> :指向同一服務器子目錄stuff下的cat.html
    <a href="https://baidu.com" target="_blank">baidu</a>:指向外部網站 。其中,使用了 Target 屬性,可以定義被鏈接的文檔在何處顯示,這里的會在新窗口打開網頁

    特別的,在HTML鏈接中有個id屬性

    id屬性可用于創建在一個HTML文檔書簽標記

    提示: 書簽是不以任何特殊的方式顯示,在HTML文檔中是不顯示的,所以對于讀者來說是隱藏的

    引用菜鳥教程中的例子:

    HTML圖像

    <img src="url" alt="some_text">:src 指 "source",即圖像的 URL 地址。alt屬性是在圖片無法顯示時,替換上去的文本。
    和超鏈接結合起來,可以為插入的圖片添加超鏈接:
    
    <a href="test.html"><img src="test.jpg" /></a>

    還可以設置圖像的高度于寬度:

    <img src="pulpit.jpg" alt="Pulpit rock" width="304" height="228">:最好設置一下,因為沒有指定圖片的大小,加載頁面時有可能破壞HTML的整體布局
    

    列表

    無序列表(unordered list,ul)

    例如:

    <ul>
    <li>Coffee</li>
    <li>Milk</li>
    </ul>

    顯示:

    • Coffee
    • Milk

    有序列表(ordered list,ol)

    例如:

    <ol>
    <li>Coffee</li>
    <li>Milk</li>
    </ol>

    顯示:

    1. Coffee
    2. Milk

    表格

    <table></table> :表格的開始和結束
    <tr></tr> :創建表格的一行
    <td></td> :創建表格中普通單元格
    <th></th>:創建表格中標題欄單元格

    表單

    表單元素是允許用戶在表單中輸入內容,比如:文本域(textarea)、下拉列表、單選框(radio-buttons)、復選框(checkboxes)等等。

    引用一個DC學院課堂中的例子:

    image

    OK !HTML內容還是很多的,說是系統學習一下,其實只學了一下爬蟲會可能用到的。

    版權聲明:本文為weixin_33857679原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。
    本文鏈接:https://blog.csdn.net/weixin_33857679/article/details/89936339

    智能推薦

    數據分析與爬蟲實戰視頻——學習筆記(二)(千圖網圖片爬蟲、fiddler抓包分析、騰訊視頻評論爬蟲、多線程爬蟲(糗百))

    網址:【數據挖掘】2019年最新python3 數據分析與數據爬蟲實戰 https://www.bilibili.com/video/av22571713/?p=26 第三周第二節課 1抓包分析實戰 作業講解(成功) 成功了。 這個代碼的整體思路是先去爬科技頁面下圖片的網址,然后打開這個網址獲得圖片的網址,然后爬取下來。 中間遇到了很多問題,比如說解碼亂碼了。 錯誤代碼:data=urllib.r...

    躁動不安的年代,你需要讀幾本好書(python爬蟲及數據分析)

    當今社會,速度已經深入人心了,“快”成了大家默認的辦事境界,看機器上一件件飛一般傳遞著的產品,聽辦公室一族打電話時那種無人能及的語速……休閑的概念已日漸模糊,大家似乎都變成了在“快咒”控制下的小人兒,似乎連騰出點時間來松口氣的時間都沒有了,看得見的、看不見的規則約束著我們;有形的、無形的的鞭子驅趕著我們,我們馬不停蹄追求事...

    數據分析學習筆記

    目錄 一.介紹 二.代碼實現 一.介紹 集中趨勢:均值,中位數,眾數,分位數(常用四分位數)                                       離中趨勢:標準差,方差 數據分布:偏態與...

    Python數據分析與挖掘學習筆記二:Numpy

    用于處理任意維度的數組 Numpy(Numerical Python)是一個開源的Python科學計算基礎庫,包含:   一個強大的N維數組對象 ndarray  廣播功能函數  整合C/C++/Fortran代碼的工具  線性代數、傅里葉變換、隨機數生成等功能 同時Numpy是SciPy、 Pandas等數據處理或科學計算庫的基礎 numpy與P...

    HTML中常用操作關于:頁面跳轉,空格

    1.頁面跳轉 2.空格的代替符...

    猜你喜歡

    freemarker + ItextRender 根據模板生成PDF文件

    1. 制作模板 2. 獲取模板,并將所獲取的數據加載生成html文件 2. 生成PDF文件 其中由兩個地方需要注意,都是關于獲取文件路徑的問題,由于項目部署的時候是打包成jar包形式,所以在開發過程中時直接安照傳統的獲取方法沒有一點文件,但是當打包后部署,總是出錯。于是參考網上文章,先將文件讀出來到項目的臨時目錄下,然后再按正常方式加載該臨時文件; 還有一個問題至今沒有解決,就是關于生成PDF文件...

    電腦空間不夠了?教你一個小秒招快速清理 Docker 占用的磁盤空間!

    Docker 很占用空間,每當我們運行容器、拉取鏡像、部署應用、構建自己的鏡像時,我們的磁盤空間會被大量占用。 如果你也被這個問題所困擾,咱們就一起看一下 Docker 是如何使用磁盤空間的,以及如何回收。 docker 占用的空間可以通過下面的命令查看: TYPE 列出了docker 使用磁盤的 4 種類型: Images:所有鏡像占用的空間,包括拉取下來的鏡像,和本地構建的。 Con...

    requests實現全自動PPT模板

    http://www.1ppt.com/moban/ 可以免費的下載PPT模板,當然如果要人工一個個下,還是挺麻煩的,我們可以利用requests輕松下載 訪問這個主頁,我們可以看到下面的樣式 點每一個PPT模板的圖片,我們可以進入到詳細的信息頁面,翻到下面,我們可以看到對應的下載地址 點擊這個下載的按鈕,我們便可以下載對應的PPT壓縮包 那我們就開始做吧 首先,查看網頁的源代碼,我們可以看到每一...

    Linux C系統編程-線程互斥鎖(四)

    互斥鎖 互斥鎖也是屬于線程之間處理同步互斥方式,有上鎖/解鎖兩種狀態。 互斥鎖函數接口 1)初始化互斥鎖 pthread_mutex_init() man 3 pthread_mutex_init (找不到的情況下首先 sudo apt-get install glibc-doc sudo apt-get install manpages-posix-dev) 動態初始化 int pthread_...

    精品国产乱码久久久久久蜜桃不卡