DC學院數據分析學習筆記(二):爬蟲需要的HTML
關于html,之前也稍微了解過一些,又碰到了,那么就系統的學習一下
HTML
超文本標記語言(HyperText Markup Language,簡稱:HTML)是一種用于創建網頁的標準標記語言。
什么是 HTML?
HTML 是用來描述網頁的一種語言。
- HTML 指的是超文本標記語言 (Hyper Text Markup Language)
- HTML 不是一種編程語言,而是一種標記語言 (markup language)
- 標記語言是一套標記標簽 (markup tag)
- HTML 使用標記標簽來描述網頁
- HTML 文檔包含了HTML 標簽及文本內容
- HTML文檔也叫做 web 頁面
HTML代碼的一般形式
一個基本的網頁代碼框架:
<!DOCTYPE html>
<html>
<head>
<title>文檔標題</title>
</head>
<body>
文檔內容......
</body>
</html>
標簽基本格式:<標簽名 屬性名1=“屬性值” 屬性名2=“屬性值” ……>文件內容標簽名>
<! DOCTYPE html>:用于代碼開頭指定html版本等信息
<html></html>:告知瀏覽器這是一個 HTML 文檔,是 HTML 文檔中最外層的元素
<head></head>:所有頭部元素的容器,必須包含文檔的標題(title),可以包含腳本、樣式、meta 信息以及其他
<title></title>:定義文檔的標題,定義瀏覽器工具欄中的標題,顯示在搜索引擎結果中的頁面標題
<body></body>:定義文檔的主體,包含文檔的所有內容(比如文本、超鏈接、圖像、表格和列表等)
<h1></h1>:定義 HTML 標題,從<h1>到<h6>標題的重要程度逐漸降低
<p></p>:定義段落,瀏覽器會自動在其前后創建一些空白
<br>:一個簡單的換行符,是一個空標簽,意味著它沒有結束標簽。
<div></div>:定義 HTML 文檔中的一個分隔區塊或者一個區域部分。經常與 CSS 一起使用,用來布局網頁。
用菜鳥教程的HTML網頁結構舉個例子:
HTML鏈接語法
<a href="url">Link text</a>:href 屬性規定鏈接的目標。
<a href="form.html">Fill Our Form</a>:指向同一服務器同一目錄下的form.html
<a href="../parent.html">Parent</a>:指向同一服務器父目錄下的parent.html
<a href="stuff/cat.html">Catalog</a> :指向同一服務器子目錄stuff下的cat.html
<a href="https://baidu.com" target="_blank">baidu</a>:指向外部網站 。其中,使用了 Target 屬性,可以定義被鏈接的文檔在何處顯示,這里的會在新窗口打開網頁
特別的,在HTML鏈接中有個id屬性
id屬性可用于創建在一個HTML文檔書簽標記。
提示: 書簽是不以任何特殊的方式顯示,在HTML文檔中是不顯示的,所以對于讀者來說是隱藏的
引用菜鳥教程中的例子:
HTML圖像
<img src="url" alt="some_text">:src 指 "source",即圖像的 URL 地址。alt屬性是在圖片無法顯示時,替換上去的文本。
和超鏈接結合起來,可以為插入的圖片添加超鏈接:
<a href="test.html"><img src="test.jpg" /></a>
還可以設置圖像的高度于寬度:
<img src="pulpit.jpg" alt="Pulpit rock" width="304" height="228">:最好設置一下,因為沒有指定圖片的大小,加載頁面時有可能破壞HTML的整體布局
列表
無序列表(unordered list,ul)
例如:
<ul>
<li>Coffee</li>
<li>Milk</li>
</ul>
顯示:
- Coffee
- Milk
有序列表(ordered list,ol)
例如:
<ol>
<li>Coffee</li>
<li>Milk</li>
</ol>
顯示:
- Coffee
- Milk
表格
<table></table> :表格的開始和結束
<tr></tr> :創建表格的一行
<td></td> :創建表格中普通單元格
<th></th>:創建表格中標題欄單元格
表單
表單元素是允許用戶在表單中輸入內容,比如:文本域(textarea)、下拉列表、單選框(radio-buttons)、復選框(checkboxes)等等。
引用一個DC學院課堂中的例子:
OK !HTML內容還是很多的,說是系統學習一下,其實只學了一下爬蟲會可能用到的。
智能推薦
數據分析與爬蟲實戰視頻——學習筆記(二)(千圖網圖片爬蟲、fiddler抓包分析、騰訊視頻評論爬蟲、多線程爬蟲(糗百))
網址:【數據挖掘】2019年最新python3 數據分析與數據爬蟲實戰 https://www.bilibili.com/video/av22571713/?p=26 第三周第二節課 1抓包分析實戰 作業講解(成功) 成功了。 這個代碼的整體思路是先去爬科技頁面下圖片的網址,然后打開這個網址獲得圖片的網址,然后爬取下來。 中間遇到了很多問題,比如說解碼亂碼了。 錯誤代碼:data=urllib.r...
躁動不安的年代,你需要讀幾本好書(python爬蟲及數據分析)
當今社會,速度已經深入人心了,“快”成了大家默認的辦事境界,看機器上一件件飛一般傳遞著的產品,聽辦公室一族打電話時那種無人能及的語速……休閑的概念已日漸模糊,大家似乎都變成了在“快咒”控制下的小人兒,似乎連騰出點時間來松口氣的時間都沒有了,看得見的、看不見的規則約束著我們;有形的、無形的的鞭子驅趕著我們,我們馬不停蹄追求事...
Python數據分析與挖掘學習筆記二:Numpy
用于處理任意維度的數組 Numpy(Numerical Python)是一個開源的Python科學計算基礎庫,包含: 一個強大的N維數組對象 ndarray 廣播功能函數 整合C/C++/Fortran代碼的工具 線性代數、傅里葉變換、隨機數生成等功能 同時Numpy是SciPy、 Pandas等數據處理或科學計算庫的基礎 numpy與P...
猜你喜歡
freemarker + ItextRender 根據模板生成PDF文件
1. 制作模板 2. 獲取模板,并將所獲取的數據加載生成html文件 2. 生成PDF文件 其中由兩個地方需要注意,都是關于獲取文件路徑的問題,由于項目部署的時候是打包成jar包形式,所以在開發過程中時直接安照傳統的獲取方法沒有一點文件,但是當打包后部署,總是出錯。于是參考網上文章,先將文件讀出來到項目的臨時目錄下,然后再按正常方式加載該臨時文件; 還有一個問題至今沒有解決,就是關于生成PDF文件...
電腦空間不夠了?教你一個小秒招快速清理 Docker 占用的磁盤空間!
Docker 很占用空間,每當我們運行容器、拉取鏡像、部署應用、構建自己的鏡像時,我們的磁盤空間會被大量占用。 如果你也被這個問題所困擾,咱們就一起看一下 Docker 是如何使用磁盤空間的,以及如何回收。 docker 占用的空間可以通過下面的命令查看: TYPE 列出了docker 使用磁盤的 4 種類型: Images:所有鏡像占用的空間,包括拉取下來的鏡像,和本地構建的。 Con...
requests實現全自動PPT模板
http://www.1ppt.com/moban/ 可以免費的下載PPT模板,當然如果要人工一個個下,還是挺麻煩的,我們可以利用requests輕松下載 訪問這個主頁,我們可以看到下面的樣式 點每一個PPT模板的圖片,我們可以進入到詳細的信息頁面,翻到下面,我們可以看到對應的下載地址 點擊這個下載的按鈕,我們便可以下載對應的PPT壓縮包 那我們就開始做吧 首先,查看網頁的源代碼,我們可以看到每一...
Linux C系統編程-線程互斥鎖(四)
互斥鎖 互斥鎖也是屬于線程之間處理同步互斥方式,有上鎖/解鎖兩種狀態。 互斥鎖函數接口 1)初始化互斥鎖 pthread_mutex_init() man 3 pthread_mutex_init (找不到的情況下首先 sudo apt-get install glibc-doc sudo apt-get install manpages-posix-dev) 動態初始化 int pthread_...