統計學習方法 - 樸素貝葉斯 - 灰信網（軟件開發博客聚合）

統計學習方法 - 樸素貝葉斯

標簽： ML

引入問題：一機器在良好狀態生產合格產品幾率是 90%，在故障狀態生產合格產品幾率是 30%，機器良好的概率是 75%。若一日第一件產品是合格品，那么此日機器良好的概率是多少。

貝葉斯模型

生成模型與判別模型

判別模型，即要判斷這個東西到底是哪一類，也就是要求y，那就用給定的x去預測。
生成模型，是要生成一個模型，那就是誰根據什么生成了模型，誰就是類別y，根據的內容就是x
以上述例子，判斷一個生產出來的零件是模塊手還是模塊腳，那么就是拿生產出零件去對照過去生產出的零件模塊。生成模型是給了一個零件手，研究手的特征，然后生成判斷研究新產出的是不是手模塊。
判斷一個新生產出的模塊就是將新生產的模塊放入兩個模塊中，哪個概率大就是哪個類別。

貝葉斯理論

貝葉斯觀點是先主觀有自己的判斷做為一個初始的概率，然后根據每次出現的情況對初始的概率進行修正，隨著信息的增多，慢慢接近真是的概率。
例如領導尋班時問：“今天機器運行怎么樣？”，你拿著剛生產出好的模塊說：“今天做出來的模塊是好的，機器應該也是好的。”這個就是基于主觀的初始概率，當然機器也有可能不是在良好運行狀態下生產的，生產出的模塊是支持機器運行良好的假設。

貝葉斯公式
在這里插入圖片描述
在這里，我們想要看產品合格的情況下，機器良好運行的概率，那么：
A是要考察的目標事件：機器是否運行良好。
P(A) 是這個目標事件的先驗概率，又叫初始概率：機器運行良好的概率。
B 是新出現的一個新事件：生產出的產品是否良好。
P(A|B) 的意思是當B出現時A的概率，在這里就是我們需要的后驗概率：產品合格時機器運行良好的概率。
P(B|A) 是當A出現時B的概率：機器運行良好時，產品良好的概率。
P(B) 是B出現的概率：即產品合格的先驗概率是多少，這里一定要注意不能因為你手上拿了一件合格產品，就說P(B)是100％，實際上這個概率是要根據以下這個公式（即全概率公式）計算出來的：
P(B) = P(B|A) * P(A) + P(B|A_) * P(A_)。
P(B|A) / P(B) 可以看作一個修正因子。

對貝葉斯公式的理解可以看做：

后驗概率 = 先驗概率 x 修正因子

使用條件概率
想像一個矩形，它代表所有的情況。在其中用一個圓a表示A事件發生的情況。圓b表示B事件。他們的相交部分就是AB同時發生的情況。
在這里插入圖片描述
在事件B發生的情況下，事件A發生的概率就是P(A∩B)除以P(B)

因此，

同理可得，

所以，

貝葉斯準則告訴我們如何交換條件概率中的條件與結果，即如果已知 P(x|c)，要求 P(c|x)，那么可以使用下面的計算方法
在這里插入圖片描述

樸素貝葉斯
我們假設特征之間相互獨立。所謂獨立(independence) 指的是統計意義上的獨立，即一個特征或者單詞出現的可能性與它和其他單詞相鄰沒有關系，比如說，“我們”中的“我”和“們”出現的概率與這兩個字相鄰沒有任何關系。這個假設正是樸素貝葉斯分類器中樸素(naive) 一詞的含義。樸素貝葉斯分類器中的另一個假設是，每個特征同等重要。

極大似然估計
在這里插入圖片描述
總結起來，最大似然估計的目的就是：利用已知的樣本結果，反推最有可能（最大概率）導致這樣結果的參數值。

原理：極大似然估計是建立在極大似然原理的基礎上的一個統計方法，是概率論在統計學中的應用。極大似然估計提供了一種給定觀察數據來評估模型參數的方法，即：“模型已定，參數未知”。通過若干次試驗，觀察其結果，利用試驗結果得到某個參數值能夠使樣本出現的概率為最大，則稱為極大似然估計。

貝葉斯估計

用極大似然估計可能會出現索要估計的概率值為0的情況。這時會影響到后驗概率的計算結果，使分類產生偏差。解決這一問題的方法是采用貝葉斯估計。具體地，條件概率的貝葉斯估計是：
在這里插入圖片描述
式子入>=0 等價于在隨機變量各個取值的頻數上賦予一個正數入>0。當入 = 0時就是極大似然估計。常取入 = 1，這時稱為拉普拉斯平滑。

本文鏈接：https://blog.csdn.net/xfxlesson/article/details/108726468

智能推薦

《統計學習方法》讀書筆記——樸素貝葉斯法（公式推導+代碼實現）

傳送門《統計學習方法》讀書筆記——機器學習常用評價指標《統計學習方法》讀書筆記——感知機（原理+代碼實現）《統計學習方法》讀書筆記——K近鄰法（原理+代碼實現）《統計學習方法》讀書筆記——樸素貝葉斯法（公式推導+代碼實現）樸素貝葉斯法傳送門寫在前面樸素貝葉斯法代碼實現參考寫在前面 ...

統計學習方法第四章（樸素貝葉斯）及Python實現及sklearn實現

統計學習方法第四章：樸素貝葉斯法(naive Bayes)，貝葉斯估計及python實現

統計學習方法第二章：感知機(perceptron)算法及python實現統計學習方法第三章：k近鄰法(k-NN),kd樹及python實現統計學習方法第四章：樸素貝葉斯法(naive Bayes)，貝葉斯估計及python實現統計學習方法第五章：決策樹(decision tree),CART算法，剪枝及python實現統計學習方法第五章：決策樹(decision tree),ID3算法，C...

統計學習筆記六----樸素貝葉斯

前言　　樸素貝葉斯（naive Bayes）算法是基于貝葉斯定理和特征條件獨立假設的分類方法，它是一種生成模型！　　對于給定的訓練數據集，首先基于特征條件獨立假設學習輸入/輸出的聯合概率分布；然后基于此模型，對給定的輸入x，利用貝葉斯定理求出后驗概率最大的輸出y。　　樸素貝葉斯算法實現簡單，學習與預測的效率都很高，是一種常用的方法。條件獨立性的假設樸素貝葉斯法對條件概率分布作了條件獨立性...

機器學習之貝葉斯（貝葉斯定理、貝葉斯網絡、樸素貝葉斯）

一、概率知識點復習（1）條件概率就是事件A在另外一個事件B已經發生條件下的發生概率。條件概率表示為P(A|B)，讀作“在B條件下A的概率”。（2）聯合概率可以簡單的理解為事件A與事件B都發生的概率，記為P(AB)或P(A, B)。此處就有 P(A, B) = P(A|B) * P(B) 若事件A與事件B獨立，則有 P(A, B) = P(A) * P(...