《電子技術(shù)應用》
您所在的位置:首頁 > 嵌入式技术 > 解决方案 > 一种属性相关性的加权贝叶斯分类算法研究

一种属性相关性的加权贝叶斯分类算法研究

2011-08-02
作者:郑 默,刘琼荪
來源:来源:微型机与应用2011年第7期

摘  要: 根據(jù)Rough Set屬性重要度理論,構(gòu)建了基于互信息的屬性子集重要度,提出屬性相關(guān)性的加權(quán)樸素貝葉斯分類算法,該算法同時放寬了樸素貝葉斯算法屬性獨立性、屬性重要性相同的假設。通過在UCI部分數(shù)據(jù)集上進行仿真實驗,與基于屬性相關(guān)性分析的貝葉斯(CB)和加權(quán)樸素貝葉斯(WNB)兩種算法做比較,證明了該算法的有效性。
關(guān)鍵詞: 樸素貝葉斯;屬性重要度;屬性相關(guān);分類

 分類是數(shù)據(jù)挖掘中一類非常重要的問題,分類算法的核心是構(gòu)造能快速、有效處理大數(shù)據(jù)容量、高精確度的分類器。在眾多分類算法和理論中,樸素貝葉斯NB(Naive Bayes)由于計算高效、高精確度,并具有堅實的理論基礎而得到了廣泛應用。NB分類基于一個簡單的假定:在給定分類特征條件下屬性值之間具有獨立性,且每個條件屬性對類變量(決策屬性)的重要度是相同的。然而,在實際問題中,這些假設往往不能滿足。為了保持NB的計算既簡單,又能提高其分類性能,參考文獻[1]提出了一種基于屬性相關(guān)性分析的貝葉斯分類模型CB(Correlated Bayes),放寬了屬性獨立性的假設,當屬性間存在相關(guān)性時較好地提高了分類性能,但是該模型假定每個屬性相對于決策屬性重要性相同,當屬性相對于決策屬性的重要性不相同時,分類效果并沒有提高;參考文獻[2-4]中提出了根據(jù)屬性的重要性賦予屬性權(quán)值的加權(quán)樸素貝葉斯WNB(Weighted Naive Bayes)模型,允許屬性之間重要度不相同,較之NB模型獲得較好的分類效果,但該模型仍基于屬性類條件獨立假設,當屬性間存在相關(guān)性時分類效果并不好。綜上,上述方法均只側(cè)重改進NB方法的某單一假設,并未同時放寬兩個假設,現(xiàn)實中數(shù)據(jù)也常常不能同時滿足兩個假設。
 本文在CB模型和WNB模型的基礎上,以互信息作為度量條件屬性相對于決策屬性的重要度,提出了集合重要度的概念,并賦予各屬性子集權(quán)值,同時考慮屬性子集內(nèi)部屬性間的相關(guān)性,提出屬性相關(guān)性的加權(quán)貝葉斯分類算法(WCB),以達到提高NB的分類性能的目的。

 





2.3 WCB模型的構(gòu)造步驟
 (1)對訓練樣本進行缺失處理和離散化處理。
 (2)分類器的構(gòu)造。
?、賿呙栌柧殬颖炯y(tǒng)計訓練集中,類別Ci的個數(shù)di和類Ci中屬性Ak取值為aik的實例個數(shù)dik,構(gòu)成統(tǒng)計表;
?、趯τ柧殞傩约M行聚類,并由式(9)計算屬性子集Ej的權(quán)重wj;
 ③計算所有的先驗概率P(Ci)=di/d,由式(2)和式(11)計算條件概率P(Ej|Ci),形成概率表;
 ④式(2)中,選擇控制參數(shù)β∈[0,0.3],取步長h=0.01,選取訓練效果最優(yōu)的β值構(gòu)建分類器;
 (3)分類,對于樣本X,調(diào)用概率表和構(gòu)建好的分類器,得出分類結(jié)果。
3 實驗分析
 為了驗證WCB算法的分類效果,本文選用UCI[6]機器學習庫中的8個數(shù)據(jù)集進行算法測試,以分類正確率作為算法優(yōu)劣的主要評價指標。在相同的試驗環(huán)境下,利用MATLAB編程分別實現(xiàn)了WNB算法、CB算法和本文提出的WCB算法。數(shù)據(jù)集中連續(xù)屬性進行離散化處理。由于Letter-Recognition、kr-vs-kp和MushRoom數(shù)據(jù)集樣本容量或?qū)傩詡€數(shù)較多,一次測試需要較長時間,采用分割數(shù)據(jù)集的方法進行測試,取2/3的數(shù)據(jù)作為訓練集,1/3數(shù)據(jù)作為測試集。其余數(shù)據(jù)集均采用10折交叉驗證,取10次的平均值作為實驗的測試結(jié)果。實驗結(jié)果如表1所示。

 仿真實驗表明,WCB算法在大部分數(shù)據(jù)集上分類正確率高于CB算法和WNB算法,由于本文構(gòu)造的WCB算法兼顧了不同的屬性相關(guān)性和屬性重要性,更能反映真實情況,并克服了CB算法和WNB算法的不足。因為本算法既要調(diào)用屬性集合重要度子函數(shù),又要選取控制參數(shù)β,所以算法運行的時間比CB算法和WNB算法稍長。當屬性子集重要度wj均為1時,WCB算法即為CB算法;當向量相關(guān)度系數(shù)CorrEr均為1時,WCB算法則為WNB算法。因此,本文提出的算法不會比二者分類效果差。
 實驗都采用了UCI標準數(shù)據(jù)集,因此實驗結(jié)果具有一定的可比性。
 本文提出的WCB算法放寬了NB的兩個假設,同時考慮屬性相關(guān)性和屬性重要性,進一步擴展了現(xiàn)有貝葉斯分類算法,有效地提高了分類效果。同時本文提出一種屬性集合重要度的計算方法,隨著屬性相關(guān)性和屬性重要度研究的發(fā)展,還可以使用其他度量屬性相關(guān)性或?qū)傩灾匾缘姆椒?,尋找分類效果更好的WCB算法是今后的研究方向。
參考文獻
[1] 章舜仲,王樹梅,黃河燕,等.基于屬性相關(guān)性分析的貝葉斯模型[J].情報學報,2007,24(2):58-65.
[2] HARRY Z, SHENG S L. Learning weighted naive bayes with accurate ranking[A]. Fourth IEEE International Conference on Data Mining (I CDMπ 04)[C]. Brighton, UK.2004:567-570.
[3] 鄧維斌,黃蜀江,周玉敏.基于條件信息熵的自主式樸素貝葉斯分類算法[J].計算機應用,2007,27(4):888-891.
[4] 鄧維斌,王國胤,王燕.基于Rough Set的加權(quán)樸素貝葉斯分類算法[J].計算機科學,2007,34(2):204-206.
[5] 曾黃麟.粗集理論及其應用(修訂版)[M].重慶:重慶大學出版社,1998.
[6] NEWMAN D J, HETTICH S, BLAKE C L, et al. UCI repository of machine learning databases [EB/OL]. http://www.ics.uci.edu/mlearn/MLRepository. html, 1998.   

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。

相關(guān)內(nèi)容