機器學習入門筆記（二）

多元線性回歸

多元線性回歸與一元線性回歸類似，只是特征值由一個變為了兩個及以上。
表達式： $h_\theta(x_i)=\theta_0+\theta_1x+\theta_2x_2+...+\theta_nx_n$
因此可用向量寫成： $h_\theta(x_i)=\theta_iX_i^T$
其中 $X^T=(X_0,X_1,X_2....,X_n)$ 其中 $X_0$ 恒為1。
而代價函數仍為： $(真實值-預測值)^2$ 的平均·。

除了多元線性回歸，還有多項式回歸。多項式回歸是因為用直線擬合不夠準確，因此要用平滑的曲線擬合，如下圖為多項式回歸的一種情況：

多項式回歸的一般式子可寫成： $Y_i=\beta_0+\beta_1X_i+\beta_2X_2+...+\beta_kX_i^k$
其中當k的值越大時，擬合的效果越好，曲線越平滑，但可能出現過擬合的情況。

標準方程法

除了梯度下降法，還有標準方程法也可用于求解參數。一般當參數較少時用標準方程法較為合適，其復雜度為O( $n^3$ )，其中n為k的大小，即特征量的個數。
已知代價函數為： $\sum_{i=1}^{m}(h_w(x^i)-y^i)^2=(y-Xw)^T(y-Xw)$

例如下列一組數據：
$x= \left[ \begin{matrix} x_0&x_1&x_2&x_3&x_4\\ 1 & 2104 &5&1&45 \\ 1 & 1416 &3&2&40\\ 1 & 1536 &3&2&30 \\ 1 & 852 &2&1&36 \\ \end{matrix} \right]$
$w= \left[ \begin{matrix} w_0\\ w_1\\ w_2\\ w_3\\ w_4\\ \end{matrix} \right]$
$y= \left[ \begin{matrix} 460\\ 232\\ 315\\ 178\\ \end{matrix} \right]$
其中w為參數向量，對代價函數的w進行求偏導，即 $\frac{\partial}{\partial w}[(y-Xw)^T(y-Xw)]$
根據矩陣求導法則可求得 w= $(X^TX)^{-1}X^Ty$
實例代碼如下：

import numpy as np
from numpy import genfromtxt
import matplotlib.pyplot as plt

# 載入數據
data = np.genfromtxt("Salary_Data.csv",delimiter=",")
x_data = data[1:,0,np.newaxis]
y_data = data[1:,1,np.newaxis]
plt.scatter(x_data,y_data)
plt.show()

#為X矩陣 添加偏置項，即添加x0=1
X_data = np.concatenate((np.ones((30,1)),x_data),axis=1)
print(X_data)

#標準方程法求解回歸參數
def weights(xArr, yArr):
    xMat = np.mat(xArr)
    yMat = np.mat(yArr)
    xTx  = xMat.T*xMat # 矩陣乘法
    # 計算矩陣的值，如果值為0，說明矩陣不可逆
    if np.linalg.det(xTx) == 0.0:
        print("矩陣不可逆！")
        return
    ws=xTx.I*xMat.T*yMat
    return ws

x_test = np.array([[0],[12]])
y_test = ws[0]+x_test*ws[1]
plt.plot(x_data,y_data,'b.')
plt.plot(x_test,y_test,'r')
plt.show()

其中salary_data.csv 為參考的工資數據。

最終結果如下：
散點圖
標準方程法擬合直線圖

本文鏈接：https://blog.csdn.net/qq_44832672/article/details/91125713

智能推薦

機器學習入門-決策樹（二）

這篇文章主要是帶來機器學習西瓜書決策書這一章的編程習題。相比機器學習實戰中的對應章節有了一定的難度上的提升，主要體現在數據集中加入了連續值，對于連續值的處理不能夠和離散值同等對待，否則其不同值各自分為一類顯然信息增益最大，但這樣在實際的應用中并沒有意義甚至適得其反。這就涉及到了對于連續值的處理。連續值處理最簡單的策略就是采用二分法對于連續值進行處理，這正是C4.5決策樹算法中采用的機制。習題...

機器學習入門-線性模型（二）

首先稍微再補充一點理論性的知識。關于最小化代價函數的幾種算法。 Gradient Descent Normal equation Conjugate gradient BFGS L-BFGS 由于難度原因本篇只關注gradient descent梯度下降法，這個方法應用比較廣泛,在無法使用正規方程法的許多條件下依然可以奏效，其對比正規方程法的優點是在數據量較大的時候仍然能取得較好的結果因為其復雜...

機器學習入門（二）驗證曲線

擬合問題的解決尋找參數的最優：超參數優化器使用sklearn中的學習曲線單一參數這里我們使用驗證曲線validation_curve來找到單一超參數的優化值...

HTML中常用操作關于：頁面跳轉，空格

1.頁面跳轉 2.空格的代替符...

freemarker + ItextRender 根據模板生成PDF文件

1. 制作模板 2. 獲取模板，并將所獲取的數據加載生成html文件 2. 生成PDF文件其中由兩個地方需要注意，都是關于獲取文件路徑的問題，由于項目部署的時候是打包成jar包形式，所以在開發過程中時直接安照傳統的獲取方法沒有一點文件，但是當打包后部署，總是出錯。于是參考網上文章，先將文件讀出來到項目的臨時目錄下，然后再按正常方式加載該臨時文件；還有一個問題至今沒有解決，就是關于生成PDF文件...