DC學院學習筆記（十六）：線性回歸實戰

預測型數據分析：線性回歸

回歸：預測數值型變量
分類：預測樣本所屬類別
聚類：在未知樣本類別的情況下，根據樣本之間的相似性把樣本分成不同的類別

適用：用于股價、房價、空氣質量等數值型變量的預測
數學模型：分析兩組變量之間的關系
x：自變量（Independent variable）
y：應變量（Dependent variable）
如圖是一個線性回歸的示意圖

通過x來預測y，函數：f(x) = y，例如在房價問題中，用房子大小等特征作為自變量，房子價格為應變量
房價回歸預測案例：
$x_1$:房子大小
$x_2$:房子樓層
$x_3$:綠化規模
$x_4$:距離最近的地鐵站距離
$x_5$:距離最近的公交站距離
$x_6$:是否配備停車位
……
y：房子價格
根據常識來講，房價和很多因素相關，房子的大小、樓層等等都是比較明顯的影響因素，還有一些需要花功夫去尋找的特征。
要尋找一個函數f，將x映射到y上，這就是回歸的關鍵。

回歸的經典方法：線性回歸
線性回歸認為y是x的一個線性的疊加

方程式：

向量形式：

參數含義

圖中y軸上的截距為，回歸曲線的斜率代表橫坐標變量的系數，即

參數優化方法：監督學習、OLS
- 監督學習：已有一些訓練樣本（訓練集），同時知道X和y，通過這些已知的樣本學習得到回歸模型
- OLS（Ordinary Least Squares）：使得預測的y和真實的y在訓練集上誤差的平方最小

用sklearn實現

1.依舊使用到iris的數據集

import pandas 
iris = pandas.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data',header=None)
iris.columns=['SepalLengthCm','SepalWidthCm','PetalLengthCm','PetalWidthCm','Species']
iris.sample(10)

	SepalLengthCm	SepalWidthCm	PetalLengthCm	PetalWidthCm	Species
25	5.0	3.0	1.6	0.2	Iris-setosa
28	5.2	3.4	1.4	0.2	Iris-setosa
137	6.4	3.1	5.5	1.8	Iris-virginica
87	6.3	2.3	4.4	1.3	Iris-versicolor
126	6.2	2.8	4.8	1.8	Iris-virginica
30	4.8	3.1	1.6	0.2	Iris-setosa
86	6.7	3.1	4.7	1.5	Iris-versicolor
96	5.7	2.9	4.2	1.3	Iris-versicolor
84	5.4	3.0	4.5	1.5	Iris-versicolor
94	5.6	2.7	4.2	1.3	Iris-versicolor

2. 繪圖

import seaborn
%matplotlib inline
#通過畫圖可以直觀地對數據的線性關系做一個觀察
seaborn.regplot(x='PetalLengthCm',y='PetalWidthCm',data=iris)

3.訓練模型

from sklearn import linear_model
lm=linear_model.LinearRegression()
features=['PetalLengthCm']
X=iris[features]
y=iris['PetalWidthCm']
print(X.shape,y.shape)

(150, 1) (150,)

#放入兩個特征,X就會多一個維度
features=['PetalLengthCm','SepalLengthCm']
#使用X，y來訓練model
model=lm.fit(X,y)
print(model.intercept_,model.coef_)
#從print的結果可以得到回歸模型的截距和系數

-0.366514045217 [ 0.41641913]

截距和系數正對應上圖中的直線

4.預測數據

#使用model來對數據進行預測，輸入X自變量的值，輸出y的預測值
#注意多個自變量時的情況,比如：model.predict([1,2])

model.predict(4)

array([ 1.29916248])

預測性能的評估

為了評估獲得模型的性能，需要對數據集進行劃分，劃分為訓練集和測試集，在訓練集上學習獲得模型，在測試集上評估誤差

交叉檢驗

將數據集中的樣本等分成多份，每次取其中的一份作為測試集，剩余的數據作為訓練集，使用測試集數據評估和檢驗從訓練集學習得到的模型，即進行交叉檢驗。相對于隨機劃分，一部分的訓練集永遠劃分在測試集中，交叉檢驗是將數據劃分成若干份，每次用不同的部分作為測試集，則每份都被當做測試集和訓練集使用過。

如下圖是將數據集劃分為五份的交叉檢驗

將數據集分為5份，分別進行5次回歸

回歸常用的打分函數

$MAE=\sum \left | {y}'-y \right |/N$對應的scoring參數為’neg_mean_absolute_error’
$MSE=\sum ({y}'-y)^{2}$對應的scoring參數為’neg_mean_squared_error’

得分越高，則代表模型的性能越好

scikit learn中進行交叉檢驗

from sklearn.model_selection import cross_val_score
#得到5次交叉檢驗的誤差,注意這里cross_val_score()前面用了負號，得到的是每個回歸模型的平均絕對值誤差
#用MAE舉例
scores=-cross_val_score(lm,X,y,cv=5,scoring='neg_mean_absolute_error')
print(scores)
#求平均值，作為誤差結果
import numpy as np
print(np.mean(scores))

[ 0.08581817  0.09533821  0.13792154  0.2074044   0.29904645]
0.165105751004

本文鏈接：https://blog.csdn.net/weixin_34253126/article/details/89904825

智能推薦