人工智能之樸素貝葉斯(NB)
樸素貝葉斯基本框架,c類(lèi)別,A特征
樸素貝葉斯分類(lèi)器:
比較流行的樸素貝葉斯分類(lèi)器有:
高斯樸素貝葉斯(Gaussian naive Bayes):適用于多個(gè)類(lèi)型變量,假設(shè)特征符合高斯分布。
多項(xiàng)式樸素貝葉斯(Multinomial naive Bayes):用于離散計(jì)數(shù),如一個(gè)句子中某個(gè)詞語(yǔ)重復(fù)出現(xiàn),我們視它們每個(gè)都是獨(dú)立的,所以統(tǒng)計(jì)多次,概率指數(shù)上出現(xiàn)了次方。
伯努利樸素貝葉斯(Bernoulli naive Bayes):如果特征向量是二進(jìn)制(即0和1),那這個(gè)模型是非常有用的。不同于多項(xiàng)式,伯努利把出現(xiàn)多次的詞語(yǔ)視為只出現(xiàn)一次,更加簡(jiǎn)單方便。
可以根據(jù)特定數(shù)據(jù)集選取上述3個(gè)分類(lèi)器中的合適者。
算法優(yōu)點(diǎn):
1)既簡(jiǎn)單又快速,預(yù)測(cè)表現(xiàn)良好。
2)如果變量獨(dú)立這個(gè)條件成立,相比Logistic回歸等其他分類(lèi)方法,樸素貝葉斯分類(lèi)器性能更優(yōu),且只需少量訓(xùn)練數(shù)據(jù)。
3)相較于數(shù)值變量,樸素貝葉斯分類(lèi)器在多個(gè)分類(lèi)變量的情況下表現(xiàn)更好。若是數(shù)值變量,需要正態(tài)分布假設(shè)。
4)對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡(jiǎn)單。
算法缺點(diǎn):
1) 如果分類(lèi)變量的類(lèi)別(測(cè)試數(shù)據(jù)集)沒(méi)有在訓(xùn)練數(shù)據(jù)集總被觀察到,那這個(gè)模型會(huì)分配一個(gè)0概率給它,同時(shí)也會(huì)無(wú)法進(jìn)行預(yù)測(cè)。這通常被稱(chēng)為“零頻率”。為了解決這個(gè)問(wèn)題,可以使用平滑技術(shù),拉普拉斯估計(jì)是其中最基礎(chǔ)的技術(shù)。
2) 樸素貝葉斯也被稱(chēng)為bad estimator,所以它的概率輸出predict_proba不應(yīng)被太認(rèn)真對(duì)待。
3) 刪除重復(fù)出現(xiàn)的高度相關(guān)的特征,可能會(huì)丟失頻率信息,影響效果。
4) 樸素貝葉斯的另一個(gè)限制是獨(dú)立預(yù)測(cè)的假設(shè)。在現(xiàn)實(shí)生活中,這幾乎是不可能的,各變量間或多或少都會(huì)存在相互影響。
主要應(yīng)用:
1) 實(shí)時(shí)預(yù)測(cè):運(yùn)用樸素貝葉斯進(jìn)行很快地實(shí)時(shí)預(yù)測(cè)。
2) 多類(lèi)預(yù)測(cè):這個(gè)算法以多類(lèi)別預(yù)測(cè)功能聞名,因此可以用來(lái)預(yù)測(cè)多類(lèi)目標(biāo)變量的概率。
3) 文本分類(lèi)/垃圾郵件過(guò)濾/情感分析:相比較其他算法,樸素貝葉斯的應(yīng)用主要集中在文本分類(lèi)(變量類(lèi)型多,且更獨(dú)立),具有較高的成功率。因此被廣泛應(yīng)用于垃圾郵件過(guò)濾(識(shí)別垃圾郵件)和情感分析(分辨積極情緒和消極情緒的用戶)。
4) 推薦系統(tǒng):樸素貝葉斯分類(lèi)器和協(xié)同過(guò)濾結(jié)合使用可以過(guò)濾出用戶想看到的和不想看到的東西。
結(jié)語(yǔ):
樸素貝葉斯模型與其他分類(lèi)方法相比具有最小的誤差率。但是實(shí)際上并非總是如此,這是因?yàn)闃闼刎惾~斯模型假設(shè)屬性之間相互獨(dú)立,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的,在屬性個(gè)數(shù)比較多或者屬性之間相關(guān)性較大時(shí),分類(lèi)效果不好。而在屬性相關(guān)性較小時(shí),樸素貝葉斯性能最為良好。對(duì)于這一點(diǎn),有半樸素貝葉斯之類(lèi)的算法通過(guò)考慮部分關(guān)聯(lián)性適度改進(jìn)。樸素貝葉斯在有些領(lǐng)域很有用,比如文本分類(lèi)、垃圾郵件過(guò)濾、情感分析等;樸素貝葉斯原理和實(shí)現(xiàn)都比較簡(jiǎn)單,學(xué)習(xí)和預(yù)測(cè)的效率都很高,是一種經(jīng)典而常用的分類(lèi)算法。在人工智能領(lǐng)域,樸素貝葉斯方法是一種十分有代表性的不確定性知識(shí)表示和推理方法。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車(chē)研發(fā)中心重磅落地,寶馬家門(mén)口“搶人”
最新活動(dòng)更多
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專(zhuān)題
- 1 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 2 人形機(jī)器人,正狂奔在批量交付的曠野
- 3 宇樹(shù)機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 5 AI版“四萬(wàn)億刺激”計(jì)劃來(lái)了
- 6 騰訊 Q2 財(cái)報(bào)亮眼:AI 已成第二增長(zhǎng)曲線
- 7 2025年8月人工智能投融資觀察
- 8 9 Manus跑路,大廠掉線,只能靠DeepSeek了
- 10 a16z最新AI百?gòu)?qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)