機器學習入門之《統計學習方法》筆記——樸素貝葉斯法

??樸素貝葉斯(naive Bayes)法是基于貝葉斯定理與特征條件獨立假設的分類方法。

樸素貝葉斯法

??設輸入空間 $X \subseteq R^{n}$ 為 $n$ 維向量的集合，輸出空間為類標記集合 $Y = {c_{1}, c_{2}, . . ., c_{K}}$ ，輸入特征向量 $x \in X$ ，輸出類標記為 $y \in Y$ ， $P (X, Y)$ 是 $X$ 和 $Y$ 的聯合概率分布，數據集

T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{n}, y_{n})}

由 $P (X, Y)$ 獨立同分布產生。

??樸素貝葉斯法就是通過訓練集來學習聯合概率分布 $P (X, Y)$ .具體就是從先驗概率分布和條件概率分布入手，倆概率相乘即可得聯合概率。

??稱之為樸素是因為將條件概率的估計簡化了，對條件概率分布作了條件獨立性假設，這也是樸素貝葉斯法的基石，假設如下

P (X = x | Y = c_{k}) = P (X^{(1)} = x^{(1)}, . . ., X^{(n)} = x^{(n)} | Y = c_{k})

k = 1, 2, . . ., K

??這個公式在之前的假設條件下等價于

\prod_{j = i}^{n} P (X^{(j)} = x^{(j)} | Y = c_{k})

??對于給定的輸入向量 $x$ ,通過學習到的模型計算后驗概率分布 $P (Y = C_{k} | X = x)$ ，后驗分布中最大的類作為 $x$ 的輸出結果，根據貝葉斯定理可知后驗概率為

P (Y = c_{k} | X = x) = \frac{P (X = x | Y = c_{k}) P (Y = c_{k})}{\sum_{k} P (X = x | Y = c_{k}) P (Y = c_{k})}

??其中 $\sum_{k} P (X = x | Y = c_{k}) P (Y = c_{k}) \Leftrightarrow P (X = x)$

??所有 $c_{k}$ 的 $P (X = x)$ 都是相同的，這樣我們可以把輸出結果化簡成

y = a r g max_{c_{k}} P (Y = c_{k}) \prod_{j} P (X^{(j)} = x^{(j)} | Y = c_{k})

??這樣，就了解了樸素貝葉斯法的基本原理了，下面要介紹的是參數估計。

參數估計

極大似然估計

??我們已經知道對于給定的輸入向量 $x$ ，其輸出結果可以表示為

y = a r g max_{c_{k}} P (Y = c_{k}) \prod_{j} P (X^{(j)} = x^{(j)} | Y = c_{k})

??可以使用極大似然估計法來估計相應的概率。先驗概率 $P (Y = c_{k})$ 的極大似然估計是

P (Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (y_{i} = c_{k})}{N}, k = 1, 2, . . ., K

?? 設第 $j$ 個特征 $x^{(j)}$ 可能的取值的集合為 ${a_{j 1}, a_{j 2}, . . ., a_{j s_{j}}}$ ，條件概率 $P (X^{(j)} = a_{j l} | Y = c_{k})$ 的極大似然估計是

P (X^{(j)} = a_{j l}, Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (x_{i}^{(j)} = a_{j l}, y_{i} = c_{k})}{\sum_{i = 1}^{N} I (y_{i} = c_{k})}

j = 1, 2, . . ., n; l = 1, 2, . . ., S_{j}; k = 1, 2, . . ., K

學習與分類算法

??下面給出樸素貝葉斯法的學習與分類算法。

算法 (樸素貝葉斯算法)

輸入: 訓練數據 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{n}, y_{n})}$ , 其中 $x_{i} = (x_{i}^{(1)}, x_{i}^{(2)}, . . ., x_{i}^{(n)})^{T}$ ， $x_{i}^{(j)} \in {a_{j 1}, a_{j 2}, . . ., a_{j s_{j}}}$ ， $j = 1, 2, . . ., n$ ， $l = 1, 2, . . ., S_{j}$ ， $y_{i} \in {c_{1}, c_{2}, . . ., c_{K}}$ ；實例 $x$ ；

輸出: 實例 $x$ 的分類.

(1) 計算先驗概率及條件概率

P (Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (y_{i} = c_{k})}{N}, k = 1, 2, . . ., K

P (X^{(j)} = a_{j l}, Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (x_{i}^{(j)} = a_{j l}, y_{i} = c_{k})}{\sum_{i = 1}^{N} I (y_{i} = c_{k})}

j = 1, 2, . . ., n; l = 1, 2, . . ., S_{j}; k = 1, 2, . . ., K

(2) 對于給定的實例 $x = (x^{(1)}, x^{(2)}, . . ., x^{(n)})^{T}$ ，計算

P (Y = c_{k}) \prod_{j} P (X^{(j)} = x^{(j)} | Y = c_{k}), k = 1, 2, . . ., K

(3) 確定實例 $x$ 的類

y = a r g max_{c_{k}} P (Y = c_{k}) \prod_{j} P (X^{(j)} = x^{(j)} | Y = c_{k})

例子：試由下表的訓練數據學習一個樸素貝葉斯分類器并確定

x = (2, S)^{T}

的類標記，表中

X^{(1)}, X^{(2)}

為特征，

Y

為類標記。

這里寫圖片描述

python代碼如下:

import numpy as np

#構造NB分類器
def Train(X_train, Y_train, feature):
    global class_num,label
    class_num = 2           #分類數目
    label = [1, -1]         #分類標簽
    feature_len = 3         #特征長度
    #構造3×2的列表
    feature = [[1, 'S'],    
               [2, 'M'],
               [3, 'L']]

    prior_prob = np.zeros(class_num)                         # 初始化先驗概率
    con_prob = np.zeros((class_num,feature_len,2))   # 初始化條件概率

    positive_count = 0     #統計正類
    negative_count = 0     #統計負類
    for i in range(len(Y_train)):
        if Y_train[i] == 1:
            positive_count += 1
        else:
            negative_count += 1
    prior_prob[0] = positive_count / len(Y_train)    #求得正類的先驗概率
    prior_prob[1] = negative_count / len(Y_train)    #求得負類的先驗概率

    '''
    con_prob是一個2*3*2的三維列表，第一維是類別分類，第二維和第三維是一個3*2的特征分類
    '''
    #分為兩個類別
    for i in range(class_num):
        #對特征按行遍歷
        for j in range(feature_len):
            #遍歷數據集，并依次做判斷
            for k in range(len(Y_train)): 
                if Y_train[k] == label[i]: #相同類別
                    if X_train[k][0] == feature[j][0]:
                        con_prob[i][j][0] += 1
                    if X_train[k][1] == feature[j][1]:
                        con_prob[i][j][1] += 1

    class_label_num = [positive_count, negative_count]  #存放各類型的數目
    for i in range(class_num):
        for j in range(feature_len):
            con_prob[i][j][0] = con_prob[i][j][0] / class_label_num[i]  #求得i類j行第一個特征的條件概率 
            con_prob[i][j][1] = con_prob[i][j][1] / class_label_num[i]  #求得i類j行第二個特征的條件概率

    return prior_prob,con_prob

#給定數據進行分類
def Predict(testset, prior_prob, con_prob, feature):
    result = np.zeros(len(label))
    for i in range(class_num):
        for j in range(len(feature)):
            if feature[j][0] == testset[0]:
                conA = con_prob[i][j][0]
            if feature[j][1] == testset[1]:
                conB = con_prob[i][j][1]
        result[i] = conA * conB * prior_prob[i]

    result = np.vstack([result,label])

    return result


def main():
    X_train = [[1, 'S'], [1, 'M'], [1, 'M'], [1, 'S'],  [1, 'S'],
               [2, 'S'], [2, 'M'], [2, 'M'], [2, 'L'],  [2, 'L'],
               [3, 'L'], [3, 'M'], [3, 'M'], [3, 'L'],  [3, 'L']]
    Y_train = [-1, -1, 1, 1, -1, -1, -1, 1, 1, 1, 1, 1, 1, 1, -1]   

    #構造3×2的列表
    feature = [[1, 'S'],    
               [2, 'M'],
               [3, 'L']]

    testset = [2, 'S']

    prior_prob, con_prob= Train(X_train, Y_train, feature)

    result = Predict(testset, prior_prob, con_prob, feature)
    print('The result:',result)

main()

??得到結果:

The result: [[ 0.02222222  0.06666667]
 [ 1.         -1.        ]]

貝葉斯估計

??極大似然估計的一個可能是會出現所要估計的概率值為0的情況，這時會影響到后驗概率的計算結果，解決這一問題的方法是采用貝葉斯估計，具體的只需要在極大似然估計的基礎上加多一個參數即可。

P_{λ} (X^{(j)} = a_{j l}, Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (x_{i}^{(j)} = a_{j l}, y_{i} = c_{k}) + λ}{\sum_{i = 1}^{N} I (y_{i} = c_{k}) + S_{j} λ}, λ \geq 0

??當 $λ = 0$ 時就是最大似然估計。常取 $λ = 1$ ，這時稱為拉普拉斯平滑(Laplace smoothing)。

小結

??樸素貝葉斯法高效，且易于實現，但是其缺點就是分類的性能不一定很高。

本文鏈接：https://blog.csdn.net/qq_30611601/article/details/79343928

智能推薦

統計學習筆記六----樸素貝葉斯

前言　　樸素貝葉斯（naive Bayes）算法是基于貝葉斯定理和特征條件獨立假設的分類方法，它是一種生成模型！　　對于給定的訓練數據集，首先基于特征條件獨立假設學習輸入/輸出的聯合概率分布；然后基于此模型，對給定的輸入x，利用貝葉斯定理求出后驗概率最大的輸出y。　　樸素貝葉斯算法實現簡單，學習與預測的效率都很高，是一種常用的方法。條件獨立性的假設樸素貝葉斯法對條件概率分布作了條件獨立性...

樸素貝葉斯(naive Bayes)的python實現——基于《統計學習方法》例題的編程求解

樸素貝葉斯方法是基于貝葉斯定理與特征條件獨立假設的分類方法。認為樣本的特征X與標簽y服從聯合概率分布P(X, y)，所有的樣本都是基于這個概率分布產生的。由于條件概率P(X=x|Y=y)的參數具有指數數量級，因此進行估算切實際。貝葉斯法對條件概率分布做了條件獨立性假設，從而減少了模型的復雜性，增加了模型的泛化能力，減少了過擬合的風險。 #后驗概率最大化可以證明，期望風險最小化準則可以得到后驗概率...

《統計學習方法》代碼全解析——第四部分樸素貝葉斯

統計學習方法第四章（樸素貝葉斯）及Python實現及sklearn實現

機器學習入門之《統計學習方法》筆記整理——K近鄰法

目錄 k近鄰算法算法 k近鄰法 k近鄰模型距離度量 k值選擇分類決策規則 k近鄰法的實現kd樹構造kd樹算法構造平衡kd樹搜索kd樹算法用kd樹的最近鄰搜索小結參考文章 k近鄰算法 k近鄰算法，即是給定一個訓練數據集，對新的輸入實例，在訓練數據集中找到與該實例最鄰近的K個實例，這K個實例的多數屬于某個類，就把該輸入實例分類到這個類中。 &e...