DC學院學習筆記（十七）：分類及邏輯回歸

回歸和分類的區別

分類：對離散型變量進行預測（二分類、多分類）
回歸：對數值型變量進行預測
區別：回歸的y為數值連續型變量；分類的y是類別離散型變量

分類問題

1. 分類問題示例：信用卡
從x1:職業，x2：收入等等信用卡申請人不同的信息維度，來判斷y：是否發放信用卡，發放哪一類信用卡

2. 分類經典方法：logistic回歸（二分類）
雖然名字里有回歸二字，但logistic回歸解決的是分類的問題

回歸得到的數值y可以看做屬于類別1的概率:
下圖為logistic函數(也叫sigmoid函數)圖像

二分類到多分類：通過One vs. Rest
使用logistic進行多分類，scikit-learn 會默認采用OvR方法：

為每個類別分別建立一個二分類器
訓練中正例為該類別樣本，負例為所有其他樣本
在所有分類中，選擇概率最高的那個類別

如iris數據集中有三個類別，選擇使用logistic回歸進行分類，則需要訓練三個分類器，根據每個樣本隸屬不同類的概率大小來進行分類

3. scikit learn 實現logistic回歸

載入iris數據集

import pandas 
iris = pandas.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data',header=None)
iris.columns=['SepalLengthCm','SepalWidthCm','PetalLengthCm','PetalWidthCm','Species']

實現logistic回歸

import sklearn
import numpy as np
from sklearn import linear_model
lm=linear_model.LogisticRegression()
features=['PetalLengthCm']
X=iris[features]
#需要講Species這個字段由字符串類型轉變為數值類型，以表示不同的類別
from sklearn.preprocessing import LabelEncoder
#初始化label
le=LabelEncoder()
le.fit(iris['Species'])
#用離散值轉化標簽值
y=le.transform(iris['Species'])
print(y)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]

#通過交叉檢驗，得到分類準確率
from sklearn.model_selection import cross_val_score
#logistic中的scoring參數指定為accuracy
scores=cross_val_score(lm,X,y,cv=5,scoring='accuracy')
print(np.mean(scores))

0.786666666667

往Feature中添加特征，看看準確率的變化

features=['PetalLengthCm','SepalWidthCm','PetalLengthCm']
X=iris[features]
#需要講Species這個字段由字符串類型轉變為數值類型，以表示不同的類別
from sklearn.preprocessing import LabelEncoder
#初始化label
le=LabelEncoder()
le.fit(iris['Species'])
#用離散值轉化標簽值
y=le.transform(iris['Species'])
##print(y)
#通過交叉檢驗，得到分類準確率
from sklearn.model_selection import cross_val_score
#logistic中的scoring參數指定為accuracy
scores=cross_val_score(lm,X,y,cv=5,scoring='accuracy')
print(np.mean(scores))

0.906666666667

果然好了很多！

本文鏈接：https://blog.csdn.net/weixin_33856370/article/details/89912576

智能推薦

機器學習——邏輯回歸多分類

本期主要講利用邏輯回歸來做多分類，包括數據可視化，假設函數，損失函數，參數最優化，一對多分類訓練器，模型準確率評估等，對應吳恩達機器學習第四周編程練習，融入自己的想法。讀取數據原數據是一個5000個樣本的1-10的數字圖片，為matlab格式，維度是5000400，其中400個是一個2020像素的數字展平的后放一行。數據可視化假設函數和損失函數梯度與最優化一對多訓練器預測與正確率評估...

SKlearn學習筆記——邏輯回歸

SKlearn學習筆記——邏輯回歸 1. 概述 1.1 名為“回歸”的分類器 1.2 為什么需要邏輯回歸 1.3 sklearn中的邏輯回歸 2. linear_model.LogisticRegression 2.1 二元邏輯回歸的損失函數 2.2 正則化:重要參數penalty & C 2.3 梯度下降:重要參數max_iter 2.4 ...

freemarker + ItextRender 根據模板生成PDF文件

1. 制作模板 2. 獲取模板，并將所獲取的數據加載生成html文件 2. 生成PDF文件其中由兩個地方需要注意，都是關于獲取文件路徑的問題，由于項目部署的時候是打包成jar包形式，所以在開發過程中時直接安照傳統的獲取方法沒有一點文件，但是當打包后部署，總是出錯。于是參考網上文章，先將文件讀出來到項目的臨時目錄下，然后再按正常方式加載該臨時文件；還有一個問題至今沒有解決，就是關于生成PDF文件...

電腦空間不夠了？教你一個小秒招快速清理 Docker 占用的磁盤空間！

Docker 很占用空間，每當我們運行容器、拉取鏡像、部署應用、構建自己的鏡像時，我們的磁盤空間會被大量占用。如果你也被這個問題所困擾，咱們就一起看一下 Docker 是如何使用磁盤空間的，以及如何回收。 docker 占用的空間可以通過下面的命令查看： TYPE 列出了docker 使用磁盤的 4 種類型： Images：所有鏡像占用的空間，包括拉取下來的鏡像，和本地構建的。 Con...

requests實現全自動PPT模板

http://www.1ppt.com/moban/ 可以免費的下載PPT模板，當然如果要人工一個個下，還是挺麻煩的，我們可以利用requests輕松下載訪問這個主頁，我們可以看到下面的樣式點每一個PPT模板的圖片，我們可以進入到詳細的信息頁面，翻到下面，我們可以看到對應的下載地址點擊這個下載的按鈕，我們便可以下載對應的PPT壓縮包那我們就開始做吧首先，查看網頁的源代碼，我們可以看到每一...

Linux C系統編程-線程互斥鎖（四）

互斥鎖互斥鎖也是屬于線程之間處理同步互斥方式，有上鎖/解鎖兩種狀態。互斥鎖函數接口 1）初始化互斥鎖 pthread_mutex_init() man 3 pthread_mutex_init (找不到的情況下首先 sudo apt-get install glibc-doc sudo apt-get install manpages-posix-dev) 動態初始化 int pthread_...

統計學習方法 - 樸素貝葉斯

引入問題：一機器在良好狀態生產合格產品幾率是 90%，在故障狀態生產合格產品幾率是 30%，機器良好的概率是 75%。若一日第一件產品是合格品，那么此日機器良好的概率是多少。貝葉斯模型生成模型與判別模型判別模型，即要判斷這個東西到底是哪一類，也就是要求y，那就用給定的x去預測。生成模型，是要生成一個模型，那就是誰根據什么生成了模型，誰就是類別y，根據的內容就是x 以上述例子，判斷一個生產出...

styled-components —— React 中的 CSS 最佳實踐

https://zhuanlan.zhihu.com/p/29344146 Styled-components 是目前 React 樣式方案中最受關注的一種，它既具備了 css-in-js 的模塊化與參數化優點，又完全使用CSS的書寫習慣，不會引起額外的學習成本。本文是 styled-components 作者之一 Max Stoiber 所寫，首先總結了前端組件化樣式中的最佳實踐原則，然后在此基...

DC學院學習筆記（十七）：分類及邏輯回歸

回歸和分類的區別

分類問題

往Feature中添加特征，看看準確率的變化

智能推薦

猜你喜歡