DC學院學習筆記(十二):數據分析—探索型數據分析
終于學習到課程的核心部分了——數據分析了!
數據分析三大類型
- 探索型數據分析
- 驗證型數據分析
- 預測型數據分析
數據科學的流程:
探索型數據分析的作用
- 與數據清理相輔相成
- 支持驗證型數據分析、預測型數據分析
探索型數據分析的常用圖表
- 條形圖、直方圖
- 餅圖(餅圖在探索型數據分析中使用較少,原因是肉眼對于角度之間的大小差別沒有對高度之間的差別敏感)
- 折線圖、散點圖
- 箱形圖
下面仔看一些例子
以tips為例,畫一些簡單的圖
import seaborn
%matplotlib inline
tips = seaborn.load_dataset("tips")
#bar 條形圖
seaborn.barplot(x="day",y="total_bill",data=tips)
#dist 直方圖
#這里只有一個參數X,是要分析的數據,比如學生的成績
seaborn.distplot(X)
#line chart 折線圖
seaborn.pointplot(x="day",y="tip",data=tips,ci=68)
#scatter diagram 散點圖
seaborn.regplot(x="total_bill",y="tip",data=tips)
#box plot 箱形圖
seaborn.boxplot(x="day",y="total_bill",data=tips)
智能推薦
數據集探索-IMDB數據分析
影評文本分類 我們將使用IMDB數據集,其中包含來自互聯網電影數據庫的50000條文本。我們將這些文本拆分成訓練集和測試集,使它們包含相同的正面和負面影評。 這里使用colab做演示。 導入相應的包 下載IMDB數據集 TensorFlow中包含IMDB數據集。我們對數據集進行了預處理,將影評(字詞序列)轉換成整數序列,其中每個整數表示字典中的一個特定字詞。 參數num_words=10000會保...
Datawhale2020.8數據挖掘實戰學習筆記之數據分析與探索
背景介紹以及代碼的相關鏈接 賽題 數據集介紹及下載 NoteBook學習代碼 數據探索和準備步驟 數據探索和準備主要分為時間序列圖,數據分布可視化以及變量間的相關性分析以及獨立性分析幾個部分。 時間序列圖 時間序列圖的特點是非常便于直接觀察數據的特點,如是否具有周期性以及震蕩幅度等 數據分布可視化 在數據分布可視化中較常用到的幾種圖,分別是直方圖,密度曲線圖,箱型圖以及小提琴圖。 直方圖:直方圖將...
探索性數據分析學習心得
探索性數據分析學習心得(EDA,Exploratory Data Analysis) 零基礎摸索中,參考零基礎入門數據挖掘 - 二手車交易價格預測 EDA目的 首先是對數據的前期處理:熟悉數據集,了解數據集,對數據集進行驗證來確定所獲得數據集可以用于接下來的機器學習或者深度學習使用。 下一步就是要去了解變量間的相互關系以及變量與預測值之間的關系。 最后進行數據處理以及特征工程的步驟,使數據集的結構...
【學習記錄】探索性數據分析(三)
接上文 模式和模型 Patterns and models 數據中的模式提供了關于關系的線索。如果兩個變量之間存在系統的關系,那么數據中就會出現一個模式。如果你發現了一個模式,問問你自己: 1. 這種模式是否是一種巧合(即隨機機會)? 2. 你如何描述這個模式所隱含的關系? 3. 這種模式隱含的關系有多強? 4. 還有哪些變量可能影響關系? 5. 如果您查看數據的各個子組,關系會發生變化...
【學習記錄】探索性數據分析(二)
接上文 缺失值 Missing Value 在數據集中我們經常會遇到異常值,但是異常值并不能阻止我們對數據進行下一步的分析,此時我們有兩個選擇: 1. 將具有異常值的數據記錄全部刪除; 2. 將某條記錄中的異常值替換為缺失(NA);ifelse()有三個參數:第一個參數應該是一個邏輯判斷test。當test為真時,結果將包含第二個參數的值yes,當test為假時,結果將包含第三個參數的值no。 我...
猜你喜歡
【學習記錄】探索性數據分析(一)
如有疑問請至英文原文處自行查閱,本文內容不保證完全還原原文內容,僅作為學習中的記錄。 探索性數據分析(Exploratory Data Analysis)EDA,是在沒有明確問題的前提下以特定方法分析數據,在數據分析過程中找到新的問題并使用數據分析方法解決問題的循環探索過程。在探索過程中,探索者可以處在一種隨心所欲的狀態,但是需要在探索過程中找到感興趣的問題,并將其付諸于實踐進行解決。 EDA是任...
datawhale 學習筆記——數據分析入門
寫在前面(這部分是廢話) 這是參加 datawhale 數據挖掘的第一次打卡,打卡內容是數據分析,希望自己能堅持做下去。開始的時候,第一天看了一下題目背景,運行了一下 baseline,剛好中期報告要改,就放下了。今天在這里做一下數據分析這部分的筆記。 介紹 本文主要是根據天池上的教程進行學習的,一些不理解地方做了筆記,內容沒有教程全,附上教程鏈接:Datawhale 零基礎入門數據挖掘-Task...
數據分析學習筆記(四)——Matplotlib
兩種不同的繪圖接口——面向過程與面向對象 Matplotlib內置了兩種接口,一種是類似于matlab的面向過程接口,所有的過程在底層實現,用戶直接應用plt函數調用相應的方法繪圖以及修改途圖中坐標。 另一種是面向對象的過程,以figure創建一個容器對象,axes創建坐標對象,然后利用兩個對象分別調用相應的方法,需要注意的是面向對象時一般應用set方法一次設置好所有的參數...
freemarker + ItextRender 根據模板生成PDF文件
1. 制作模板 2. 獲取模板,并將所獲取的數據加載生成html文件 2. 生成PDF文件 其中由兩個地方需要注意,都是關于獲取文件路徑的問題,由于項目部署的時候是打包成jar包形式,所以在開發過程中時直接安照傳統的獲取方法沒有一點文件,但是當打包后部署,總是出錯。于是參考網上文章,先將文件讀出來到項目的臨時目錄下,然后再按正常方式加載該臨時文件; 還有一個問題至今沒有解決,就是關于生成PDF文件...