統計學習方法 - 樸素貝葉斯
標簽: ML
引入問題:一機器在良好狀態生產合格產品幾率是 90%,在故障狀態生產合格產品幾率是 30%,機器良好的概率是 75%。若一日第一件產品是合格品,那么此日機器良好的概率是多少。
貝葉斯模型
生成模型與判別模型
- 判別模型,即要判斷這個東西到底是哪一類,也就是要求y,那就用給定的x去預測。
- 生成模型,是要生成一個模型,那就是誰根據什么生成了模型,誰就是類別y,根據的內容就是x
- 以上述例子,判斷一個生產出來的零件是模塊手還是模塊腳,那么就是拿生產出零件去對照過去生產出的零件模塊。生成模型是給了一個零件手,研究手的特征,然后生成判斷研究新產出的是不是手模塊。
判斷一個新生產出的模塊就是將新生產的模塊放入兩個模塊中,哪個概率大就是哪個類別。
貝葉斯理論
貝葉斯觀點是先主觀有自己的判斷做為一個初始的概率,然后根據每次出現的情況對初始的概率進行修正,隨著信息的增多,慢慢接近真是的概率。
例如領導尋班時問:“今天機器運行怎么樣?”,你拿著剛生產出好的模塊說:“今天做出來的模塊是好的,機器應該也是好的。”這個就是基于主觀的初始概率,當然機器也有可能不是在良好運行狀態下生產的,生產出的模塊是支持機器運行良好的假設。
貝葉斯公式
在這里,我們想要看產品合格的情況下,機器良好運行的概率,那么:
A是要考察的目標事件:機器是否運行良好。
P(A) 是這個目標事件的先驗概率,又叫初始概率:機器運行良好的概率。
B 是新出現的一個新事件:生產出的產品是否良好。
P(A|B) 的意思是當B出現時A的概率,在這里就是我們需要的后驗概率:產品合格時機器運行良好的概率。
P(B|A) 是當A出現時B的概率:機器運行良好時,產品良好的概率。
P(B) 是B出現的概率:即產品合格的先驗概率是多少,這里一定要注意不能因為你手上拿了一件合格產品,就說P(B)是100%,實際上這個概率是要根據以下這個公式(即全概率公式)計算出來的:
P(B) = P(B|A) * P(A) + P(B|A_) * P(A_)。
P(B|A) / P(B) 可以看作一個修正因子。
對貝葉斯公式的理解可以看做:
后驗概率 = 先驗概率 x 修正因子
使用條件概率
想像一個矩形,它代表所有的情況。在其中用一個圓a表示A事件發生的情況。圓b表示B事件。他們的相交部分就是AB同時發生的情況。
在事件B發生的情況下,事件A發生的概率就是P(A∩B)除以P(B)
因此,
同理可得,
所以,
貝葉斯準則告訴我們如何交換條件概率中的條件與結果,即如果已知 P(x|c),要求 P(c|x),那么可以使用下面的計算方法
樸素貝葉斯
我們假設特征之間 相互獨立 。所謂 獨立(independence) 指的是統計意義上的獨立,即一個特征或者單詞出現的可能性與它和其他單詞相鄰沒有關系,比如說,“我們”中的“我”和“們”出現的概率與這兩個字相鄰沒有任何關系。這個假設正是樸素貝葉斯分類器中 樸素(naive) 一詞的含義。樸素貝葉斯分類器中的另一個假設是,每個特征同等重要。
極大似然估計
總結起來,最大似然估計的目的就是:利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。
原理:極大似然估計是建立在極大似然原理的基礎上的一個統計方法,是概率論在統計學中的應用。極大似然估計提供了一種給定觀察數據來評估模型參數的方法,即:“模型已定,參數未知”。通過若干次試驗,觀察其結果,利用試驗結果得到某個參數值能夠使樣本出現的概率為最大,則稱為極大似然估計。
貝葉斯估計
用極大似然估計可能會出現索要估計的概率值為0的情況。這時會影響到后驗概率的計算結果,使分類產生偏差。解決這一問題的方法是采用貝葉斯估計。具體地,條件概率的貝葉斯估計是:
式子 入>=0 等價于在隨機變量各個取值的頻數上賦予一個正數 入>0。當 入 = 0時就是極大似然估計。常取 入 = 1,這時稱為拉普拉斯平滑。
智能推薦
《統計學習方法》讀書筆記——樸素貝葉斯法(公式推導+代碼實現)
傳送門 《統計學習方法》讀書筆記——機器學習常用評價指標 《統計學習方法》讀書筆記——感知機(原理+代碼實現) 《統計學習方法》讀書筆記——K近鄰法(原理+代碼實現) 《統計學習方法》讀書筆記——樸素貝葉斯法(公式推導+代碼實現) 樸素貝葉斯法 傳送門 寫在前面 樸素貝葉斯法 代碼實現 參考 寫在前面 ...
統計學習方法第四章(樸素貝葉斯)及Python實現及sklearn實現
1原理 樸素貝葉斯 貝葉斯:根據貝葉斯定理p(y|x) = p(y)p(x|y)/p(x).選擇p(y|x) 最大的類別作為x的類別。可知樸素貝葉斯是監督學習的生成模型(由聯合概率分布得到概率分布)。選擇p(y|x) 最大的類別時,分母相同,所以簡化為比較 p(y)p(x|y)的大小。 樸素: 計算p(x|y)的概率,假設x是n維向量,每維向量有sn個取值可能,則就要計算類別*(sn的n次方)次。...
統計學習方法第四章:樸素貝葉斯法(naive Bayes),貝葉斯估計及python實現
統計學習方法第二章:感知機(perceptron)算法及python實現 統計學習方法第三章:k近鄰法(k-NN),kd樹及python實現 統計學習方法第四章:樸素貝葉斯法(naive Bayes),貝葉斯估計及python實現 統計學習方法第五章:決策樹(decision tree),CART算法,剪枝及python實現 統計學習方法第五章:決策樹(decision tree),ID3算法,C...
統計學習筆記六----樸素貝葉斯
前言 樸素貝葉斯(naive Bayes)算法是基于貝葉斯定理和特征條件獨立假設的分類方法,它是一種生成模型! 對于給定的訓練數據集,首先基于特征條件獨立假設學習輸入/輸出的聯合概率分布;然后基于此模型,對給定的輸入x,利用貝葉斯定理求出后驗概率最大的輸出y。 樸素貝葉斯算法實現簡單,學習與預測的效率都很高,是一種常用的方法。 條件獨立性的假設 樸素貝葉斯法對條件概率分布作了條件獨立性...
機器學習之貝葉斯(貝葉斯定理、貝葉斯網絡、樸素貝葉斯)
一、概率知識點復習 (1)條件概率 就是事件A在另外一個事件B已經發生條件下的發生概率。條件概率表示為P(A|B),讀作“在B條件下A的概率”。 (2)聯合概率 可以簡單的理解為事件A與事件B都發生的概率,記為P(AB)或P(A, B)。 此處就有 P(A, B) = P(A|B) * P(B) 若事件A與事件B獨立,則有 P(A, B) = P(A) * P(...
猜你喜歡
分類方法之樸素貝葉斯
機器學習的分類算法有多種,今天我們就來一起學習一下其中的一種——樸素貝葉斯。 樸素貝葉斯是貝葉斯決策理論的一部分,而貝葉斯決策理論的核心思想就是選擇具有最高概率的決策。 比如,一個村子里有兩個小偷A和B,p1表示村子失竊是A干的概率,p2表示村子失竊是B干的概率。現在如果村子失竊了,猜測是誰干的。...
freemarker + ItextRender 根據模板生成PDF文件
1. 制作模板 2. 獲取模板,并將所獲取的數據加載生成html文件 2. 生成PDF文件 其中由兩個地方需要注意,都是關于獲取文件路徑的問題,由于項目部署的時候是打包成jar包形式,所以在開發過程中時直接安照傳統的獲取方法沒有一點文件,但是當打包后部署,總是出錯。于是參考網上文章,先將文件讀出來到項目的臨時目錄下,然后再按正常方式加載該臨時文件; 還有一個問題至今沒有解決,就是關于生成PDF文件...
電腦空間不夠了?教你一個小秒招快速清理 Docker 占用的磁盤空間!
Docker 很占用空間,每當我們運行容器、拉取鏡像、部署應用、構建自己的鏡像時,我們的磁盤空間會被大量占用。 如果你也被這個問題所困擾,咱們就一起看一下 Docker 是如何使用磁盤空間的,以及如何回收。 docker 占用的空間可以通過下面的命令查看: TYPE 列出了docker 使用磁盤的 4 種類型: Images:所有鏡像占用的空間,包括拉取下來的鏡像,和本地構建的。 Con...
requests實現全自動PPT模板
http://www.1ppt.com/moban/ 可以免費的下載PPT模板,當然如果要人工一個個下,還是挺麻煩的,我們可以利用requests輕松下載 訪問這個主頁,我們可以看到下面的樣式 點每一個PPT模板的圖片,我們可以進入到詳細的信息頁面,翻到下面,我們可以看到對應的下載地址 點擊這個下載的按鈕,我們便可以下載對應的PPT壓縮包 那我們就開始做吧 首先,查看網頁的源代碼,我們可以看到每一...