《電子技術(shù)應用》
您所在的位置:首頁 > 通信与网络 > 设计应用 > 一种基于VSM的中文网页分类方法
一种基于VSM的中文网页分类方法
孔令成,郑 诚,吴永俊
摘要: 技术论文,站点首页,技术
關(guān)鍵詞: 网页分类
Abstract:
Key words :

  摘  要: 本文應用有指導機器學習方法實現(xiàn)了一個分類器。運用改進型的MI進行特征提取,并對傳統(tǒng)的TFIDF加權(quán)公式進行了改進。實驗結(jié)果表明該分類器有較高的分類質(zhì)量,滿足了中文網(wǎng)頁自動分類的要求。
    關(guān)鍵詞: 網(wǎng)頁分類;文本;算法;特征

   網(wǎng)絡的迅速發(fā)展,使人們不僅面臨信息爆炸,同時也面臨著如何從浩如煙海的信息中獲取自己所需信息的難題。如何有效地組織和處理海量的信息,并過濾和管理網(wǎng)絡資源,已成為必須面對的問題。
  為了網(wǎng)頁信息的有效組織和檢索,人們開發(fā)了各種網(wǎng)絡信息搜索器(比如搜索引擎),在一定程度上確實提高了網(wǎng)絡信息的利用率。與文本分類技術(shù)相比較,網(wǎng)頁分類更加復雜,這是由網(wǎng)頁的結(jié)構(gòu)特征決定的,但是網(wǎng)頁的信息主要是通過文本的方式向人們傳遞的,所以在對網(wǎng)頁分類之前,首先要對其中的文本進行提取,對所提取的文本分類,最終使網(wǎng)頁分類問題轉(zhuǎn)化為文本分類問題。
  目前,文本分類技術(shù)的研究比較活躍,已經(jīng)出現(xiàn)了多種文本分類算法,并且被廣泛應用于多個領(lǐng)域:信息檢索、搜索引擎、文本數(shù)據(jù)庫等。文本分類算法[1-3]基本是基于概率統(tǒng)計模型,例如貝葉斯分類算法(Naive Bayes),支持向量機(SVM)、K近鄰算法(KNN)等等。本文就是基于互信息(MI)提出一種改進的特征提取方法,并根據(jù)TFIDF提出一種新的特征權(quán)值計算方法構(gòu)建中文網(wǎng)頁分類器。實驗表明,改進后的特征提取和特征權(quán)值計算算法在中文網(wǎng)頁分類過程中取得了良好的效果。
1 網(wǎng)頁預處理
  網(wǎng)頁分類之前首先要進行預處理,實際上就是HTML解析,把解析出來的內(nèi)容用于文本分類,選取網(wǎng)頁中的下面這些文本用于分類:
    (1)錨文本。錨文本是網(wǎng)頁中用于指示所連接網(wǎng)頁內(nèi)容的提示,由于后面要對提取的文本進行分類,所以只提取文字形式的錨文本。
    (2)title文本。這樣的文本可能是網(wǎng)頁中最重要的標簽,必須取得。
    (3)meta標簽。其重要的功能就是設(shè)置關(guān)鍵字,網(wǎng)頁的制作者往往都設(shè)置了關(guān)鍵字,來提高網(wǎng)頁的搜索點擊率。可以利用meta標簽中的有關(guān)文本內(nèi)容進行網(wǎng)頁分類。
    (4)主文本。上面這些信息獲取之后,網(wǎng)頁中剩余的文本信息還在各種HTML標簽中,在HTML源文件中,主文本有可能不是連續(xù)出現(xiàn)的。主文本一般是網(wǎng)頁中文字最集中的較長的字符串,查看源文件,那些比較長的字符串是整個出現(xiàn)在1個標簽中的,因此提取出標簽中的文本,并比較長度,選擇較長的某幾個作為主文本,利用它們進行分類。
  網(wǎng)頁中像jave script和sytle這樣的信息,如果把這些信息帶到后面的信息提取中,會使所獲取的文本準確度大大地降低,所以必須在網(wǎng)頁中獲取相關(guān)文本前就除掉。
  文本首先要確定的問題就是表示文本的基本單位,用于表示文本的基本單位通常稱為文本的特征或特征項。中文文本不同于英文文本,英文文本以空格為分隔符,非常明確。而中文文本需要對其進行分詞處理才能得出每個特征。本文采用中科院計算技術(shù)研究所漢語詞法分析系統(tǒng)ICTCLAS3.0[4]進行分詞。對于文本中的特征項,能標識文本特性的往往是文本中的實詞,如名詞、動詞等。而文本中的一些虛詞(如感嘆詞、介詞等),對于標識文本的類別特性并沒有多少貢獻。如果把這些對文本分類沒有意義的虛詞作為特征,將會帶來很大噪音,降低文本分類的效率和準確率。因此,在提取文本特征時,應首先考慮剔除這些對文本分類沒有用處的虛詞,而在實詞中,又以名詞和動詞對于文本的類別特性的表現(xiàn)力最強,所以只保留那些對于文本分類有用的實詞即:名詞、動詞。即便剔除了文本中的虛詞,要對文本分類的數(shù)據(jù)量仍然會很大,為了進一步減少影響文本分類的噪音,則需要提取出對文本分類貢獻大的特征項。
2 特征提取
    特征提取就是提取出最能代表某篇文章或某類的特征項,以達到降維的效果從而減少文本分類的計算量。典型特征提取方法:信息增益(Information Gain),互信息(MI)、文檔頻度(DF)。傳統(tǒng)的MI特征提取方法:

  計算出所有特征詞的統(tǒng)計值后,從大到小進行排序,然后根據(jù)需要從上到下選取一定數(shù)量的特征詞構(gòu)建文本分類的特征詞庫。
3 特征加權(quán)及向量化
   TFIDF算法及其改進型[5]有多種公式,本文使用一種新的改進的TF-IDF公式來計算特征詞的權(quán)重。TF-IDF公式有很多變種,比較常見的TF-IDF公式:
    

  網(wǎng)頁不同于一般的文本,頁面中包含了諸如,

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。