摘 要: 提出了一種用于入侵檢測(cè)系統(tǒng)的多分類(lèi)器融合的模式識(shí)別方法,通過(guò)試驗(yàn)對(duì)單分類(lèi)器和多分類(lèi)器的IDS性能進(jìn)行了比較。
關(guān)鍵詞: 入侵檢測(cè) 模式識(shí)別 多分類(lèi)器融合
對(duì)計(jì)算機(jī)網(wǎng)絡(luò)的保護(hù)通常是通過(guò)訪問(wèn)控制策略來(lái)實(shí)現(xiàn)的。盡管投入了很大的精力來(lái)設(shè)計(jì)這些過(guò)濾器,但是,網(wǎng)絡(luò)安全還是難以得到保證。為了檢測(cè)出已知的或潛在的威脅,入侵檢測(cè)系統(tǒng)被放入計(jì)算機(jī)網(wǎng)絡(luò)中作為網(wǎng)絡(luò)安全的第二道防線(xiàn)。入侵檢測(cè)系統(tǒng)作為一種積極、主動(dòng)的防御系統(tǒng)是傳統(tǒng)的防火墻所不能替代的。
1 入侵檢測(cè)系統(tǒng)概述
1.1 入侵檢測(cè)系統(tǒng)的組成
入侵檢測(cè)系統(tǒng)從功能上可以分為三部分。
(1)探測(cè)器:探測(cè)器主要負(fù)責(zé)收集數(shù)據(jù)。探測(cè)器的輸入數(shù)據(jù)流包括任何可能包含入侵行為線(xiàn)索的系統(tǒng)數(shù)據(jù)。
(2)分析器:分析器又稱(chēng)為檢測(cè)引擎,負(fù)責(zé)從一個(gè)或多個(gè)探測(cè)器處接收信息,并分析是否發(fā)生了非法入侵活動(dòng)。
(3)用戶(hù)接口:IDS的用戶(hù)接口使用戶(hù)易于觀察系統(tǒng)的輸出信號(hào),并對(duì)系統(tǒng)行為進(jìn)行控制。
1.2 入侵檢測(cè)系統(tǒng)的分類(lèi)
根據(jù)檢測(cè)引擎的實(shí)現(xiàn)技術(shù),可把入侵檢測(cè)系統(tǒng)分為誤用入侵檢測(cè)(Misuse Detection)和異常入侵檢測(cè)(Anomaly Detection)。
(1)誤用入侵檢測(cè)主要根據(jù)網(wǎng)絡(luò)數(shù)據(jù)流的特征來(lái)匹配攻擊模式,具有較高的檢測(cè)準(zhǔn)確性,但它的完整性則取決于特征庫(kù)的及時(shí)更新。理論上,可以通過(guò)設(shè)計(jì)通用的攻擊模式來(lái)解決此問(wèn)題,但安全專(zhuān)家設(shè)計(jì)的通用攻擊模式往往產(chǎn)生大量的假警報(bào)。
(2)異常入侵檢測(cè)是基于計(jì)算機(jī)系統(tǒng)正常行為的統(tǒng)計(jì)知識(shí)的一種檢測(cè)方法。這種檢測(cè)方法與系統(tǒng)類(lèi)型、環(huán)境、系統(tǒng)脆弱性和攻擊類(lèi)型無(wú)關(guān)。它的檢測(cè)完整性很高,但由于網(wǎng)絡(luò)傳輸具有高可變性,因此很難保證高的準(zhǔn)確性。較高的虛警率是它的主要缺陷。
2 入侵檢測(cè)系統(tǒng)中模式識(shí)別技術(shù)的引入及特點(diǎn)
從以上討論可看出,開(kāi)發(fā)一個(gè)成功、高效的IDS的關(guān)鍵是找到檢測(cè)新攻擊和低虛警率之間的平衡。誤用檢測(cè)模型雖然檢測(cè)新攻擊的能力有限,但由于它具有低虛警率而得到廣泛的應(yīng)用。
為了檢測(cè)新的攻擊,很多研究人員采用樣本學(xué)習(xí)的模式識(shí)別方法。用這種方法開(kāi)發(fā)先進(jìn)IDS的主要優(yōu)點(diǎn)在于它的歸納能力。它可以識(shí)別出以前沒(méi)有遇到過(guò)和沒(méi)有描述過(guò)的攻擊,尤其是,模式識(shí)別方法可以檢測(cè)出變異的攻擊。基于樣本學(xué)習(xí)的入侵檢測(cè)還處于初級(jí)階段,在系統(tǒng)得到實(shí)用之前還有大量問(wèn)題需要解決。一個(gè)最主要的問(wèn)題就是它常常產(chǎn)生高的虛警率。
應(yīng)用模式識(shí)別和樣本學(xué)習(xí)方法開(kāi)發(fā)高效的IDS具有以下優(yōu)點(diǎn):(1)檢測(cè)新攻擊的能力。(2)從有標(biāo)號(hào)的網(wǎng)絡(luò)數(shù)據(jù)自動(dòng)提煉出一些攻擊特征,克服了人為的一些主觀性。
這些觀點(diǎn)在IDS開(kāi)發(fā)早期就被提出過(guò),尤其是對(duì)神經(jīng)網(wǎng)絡(luò)的應(yīng)用投入了大量研究。神經(jīng)網(wǎng)絡(luò)提供了一種識(shí)別異常行為模式的能力。用于誤用和異常檢測(cè)的神經(jīng)網(wǎng)絡(luò)模型已于1999年提出。訓(xùn)練集是由基本安全模塊(Base Security Module)捕獲的一系列事件。由網(wǎng)絡(luò)會(huì)話(huà)數(shù)據(jù)而不是審計(jì)數(shù)據(jù)組成的訓(xùn)練集也被用在誤用檢測(cè)中。從以上分析中可以看出,模式識(shí)別技術(shù)非常適于提供一種IDS的解決方法。
3 基于模式識(shí)別技術(shù)的入侵檢測(cè)系統(tǒng)
3.1 基于模式識(shí)別技術(shù)的NIDS系統(tǒng)結(jié)構(gòu)
計(jì)算機(jī)網(wǎng)絡(luò)的入侵主要是針對(duì)傳輸協(xié)議、系統(tǒng)軟件和應(yīng)用軟件的漏洞進(jìn)行的。檢測(cè)計(jì)算機(jī)網(wǎng)絡(luò)的入侵,可以采用NIDS系統(tǒng)。它通過(guò)處理網(wǎng)絡(luò)數(shù)據(jù)流,可以檢測(cè)到入侵行為?;谀J阶R(shí)別的入侵檢測(cè)系統(tǒng)的結(jié)構(gòu)如圖1所示。

NIDS主要解決的問(wèn)題是:通過(guò)給定2臺(tái)主機(jī)之間的會(huì)話(huà)連接信息,把每次會(huì)話(huà)歸類(lèi)為N種數(shù)據(jù)類(lèi)中的一種。這N種數(shù)據(jù)類(lèi)包含了正常數(shù)據(jù)和各種入侵類(lèi)別。
會(huì)話(huà)連接指的是某一特定服務(wù)的一系列的數(shù)據(jù)包。NIDS的目的是檢測(cè)出有惡意的會(huì)話(huà)連接,每個(gè)連接都可歸于一個(gè)數(shù)據(jù)類(lèi)。
3.2 入侵特征的提取
特征提取是入侵檢測(cè)系統(tǒng)的核心問(wèn)題之一。合理的特征提取是保證入侵檢測(cè)系統(tǒng)有效工作的重要前提。特征提取的結(jié)果將影響到IDS的誤報(bào)率和漏報(bào)率。降低誤報(bào)率和漏報(bào)率一直是IDS所追求的目標(biāo),而優(yōu)化的特征選取會(huì)對(duì)該目標(biāo)產(chǎn)生積極而深遠(yuǎn)的影響。
為了區(qū)分不同的攻擊,需要選擇合適的入侵特征。本文將入侵特征分為與數(shù)據(jù)內(nèi)容有關(guān)的特征(負(fù)載)和與網(wǎng)絡(luò)連接有關(guān)的特征,而網(wǎng)絡(luò)連接特征又可進(jìn)一步細(xì)分為網(wǎng)絡(luò)特征和統(tǒng)計(jì)特征。因此,這三類(lèi)特征經(jīng)常被用于劃分網(wǎng)絡(luò)連接類(lèi)型。
(1)內(nèi)容特征:包含了數(shù)據(jù)包的數(shù)據(jù)內(nèi)容信息(負(fù)載)。
(2)網(wǎng)絡(luò)特征:本次連接的一般特征,包括連接時(shí)間、類(lèi)型、協(xié)議和標(biāo)志等。
(3)統(tǒng)計(jì)特征:與本次連接類(lèi)似的連接的一些統(tǒng)計(jì)值。例如:與本次連接有相同目的主機(jī)的連接數(shù)目。
從網(wǎng)絡(luò)數(shù)據(jù)流中能夠提取3類(lèi)特征,每類(lèi)特征都可提供區(qū)分正常數(shù)據(jù)流或攻擊的信息。當(dāng)一個(gè)攻擊發(fā)生時(shí),攻擊模式會(huì)在一類(lèi)或多類(lèi)的特征集中被發(fā)現(xiàn)。對(duì)于每一種攻擊,網(wǎng)絡(luò)工程師根據(jù)他們的經(jīng)驗(yàn)選擇更高效的特征系統(tǒng),以設(shè)計(jì)出有效的攻擊模式。一旦出現(xiàn)了新的攻擊,就要對(duì)特征系統(tǒng)進(jìn)行人為調(diào)整。另一方面,模式識(shí)別工具可以處理所有的特征集以自動(dòng)提取更多有用的特征,不需要人為的干預(yù),大大提高了IDS的工作效率。
4 單分類(lèi)器與多分類(lèi)器的比較
設(shè)計(jì)模式識(shí)別系統(tǒng)的最終目的在于使當(dāng)前的分類(lèi)任務(wù)達(dá)到最佳的分類(lèi)性能。該問(wèn)題一般用神經(jīng)網(wǎng)絡(luò)分類(lèi)器來(lái)解決,采用的算法是反向傳播(BackPropagation,BP)算法。為完成一個(gè)現(xiàn)有的模式分類(lèi)問(wèn)題,對(duì)多個(gè)可選的分類(lèi)方案進(jìn)行實(shí)驗(yàn)測(cè)試,然后選擇最佳的分類(lèi)器方案作為該問(wèn)題的分類(lèi)器。但這里出現(xiàn)了 3個(gè)問(wèn)題:(1)BP算法存在易于陷入局部極值的缺點(diǎn),因而可能使最終的分類(lèi)結(jié)果達(dá)不到理想的分類(lèi)狀態(tài)。(2)不能被最佳分類(lèi)器識(shí)別的模式可能被其他分類(lèi)器識(shí)別。(3)高維特征變量的輸入會(huì)導(dǎo)致計(jì)算復(fù)雜化,學(xué)習(xí)速度慢,在具體實(shí)現(xiàn)和精度上都會(huì)產(chǎn)生問(wèn)題。解決這些問(wèn)題的方法是將一個(gè)模式識(shí)別問(wèn)題由多個(gè)分類(lèi)器共同完成,并將多個(gè)分類(lèi)器的輸出作為證據(jù)進(jìn)行組合。
為此,可以把全體特征按不同的抽象層分為幾個(gè)特征集,然后用不同的分類(lèi)器分別進(jìn)行處理(但在大多數(shù)情況下,只用一個(gè)分類(lèi)器處理所有特征集)。但分類(lèi)器工作在這樣的環(huán)境中,會(huì)導(dǎo)致屬性(或維)的大量冗余。不同的網(wǎng)絡(luò)會(huì)話(huà)中,特征有不同的含義,因而用單個(gè)分類(lèi)器處理不同語(yǔ)義的分類(lèi)非常困難。鑒于這種情況,多分類(lèi)器融合將比基于高維特征向量的單分類(lèi)器更有效。
在目標(biāo)識(shí)別中,利用不同的特征或分類(lèi)器可以得到不同的分類(lèi)識(shí)別結(jié)果。這些結(jié)果之間的互補(bǔ)性往往很強(qiáng)。因此,通過(guò)對(duì)多分類(lèi)器的分類(lèi)識(shí)別結(jié)果進(jìn)行融合能有效地提高對(duì)目標(biāo)的分類(lèi)識(shí)別效果。此外,對(duì)多分類(lèi)器的融合還可以降低分類(lèi)系統(tǒng)的訓(xùn)練時(shí)間并提高分類(lèi)系統(tǒng)的魯棒性。
5 IDS中采用的多分類(lèi)器融合方法
基于多分類(lèi)器的模式識(shí)別方法能進(jìn)一步利用由不同特征子集所提取出的攻擊模式。每個(gè)特征子空間獨(dú)立地執(zhí)行攻擊檢測(cè),然后把檢測(cè)結(jié)果綜合起來(lái)得出最后的決定。入侵檢測(cè)多分類(lèi)器結(jié)構(gòu)如圖2所示。這個(gè)處理過(guò)程與網(wǎng)絡(luò)安全專(zhuān)家設(shè)計(jì)攻擊模式的過(guò)程吻合。

多分類(lèi)器融合包括2種基本技術(shù):(1)將每個(gè)分類(lèi)器的輸出結(jié)果按照特定的融合方法進(jìn)行融合來(lái)得到最終的分類(lèi)結(jié)果。常用的融合方法有投票法、加權(quán)平均法、貝葉斯推理、D-S證據(jù)理論和模糊積分等。(2)動(dòng)態(tài)分類(lèi)器選擇,即對(duì)于特定類(lèi)型的待識(shí)別模式通過(guò)動(dòng)態(tài)選擇分類(lèi)器進(jìn)行分類(lèi)。本文將采用投票法、加權(quán)平均法和樸素貝葉斯這3種融合方法和動(dòng)態(tài)分類(lèi)器選擇技術(shù)。
投票法是應(yīng)用最廣泛的融合方法。它利用單個(gè)分類(lèi)器對(duì)給定的測(cè)試樣本分類(lèi),將具有相同分類(lèi)結(jié)果的分類(lèi)器劃分為同一組。分類(lèi)器數(shù)目最多的一組的分類(lèi)結(jié)果就是測(cè)試樣本最終的分類(lèi)結(jié)果。
由于分類(lèi)系統(tǒng)中各分類(lèi)器的分類(lèi)效果不同,為發(fā)揮各個(gè)分類(lèi)器的優(yōu)點(diǎn),使融合結(jié)果達(dá)到高識(shí)別率和高置信度,在融合過(guò)程中常常需要對(duì)各分類(lèi)器的輸出進(jìn)行加權(quán),得到最終的分類(lèi)結(jié)果。這種方法就是加權(quán)平均法。
樸素貝葉斯方法直接利用貝葉斯公式進(jìn)行預(yù)測(cè),把從訓(xùn)練樣本中計(jì)算出的各個(gè)屬性值和類(lèi)別頻率比作為先驗(yàn)概率,并假定各個(gè)屬性之間是獨(dú)立的。這樣就可以用貝葉斯公式和相應(yīng)的概率公式計(jì)算出要預(yù)測(cè)實(shí)例對(duì)各類(lèi)別的條件概率值。
動(dòng)態(tài)分類(lèi)器選擇技術(shù)就是要找出在輸入樣本周?chē)鷧^(qū)域中具有最優(yōu)局部性能的分類(lèi)器,并以該分類(lèi)器的輸出作為整個(gè)融合系統(tǒng)的輸出結(jié)果。
假設(shè)根據(jù)不同特征集訓(xùn)練的各分類(lèi)器的輸出結(jié)果不具有相關(guān)性,則可用一些固定的融合方法,如投票法和加權(quán)平均法。然而,該假設(shè)并不總是成立。當(dāng)不同分類(lèi)器輸出結(jié)果之間具有相關(guān)性時(shí),固定的規(guī)則就不能很好地進(jìn)行處理。這時(shí)可以采用可訓(xùn)練的融合方法,它能較好地解決不同分類(lèi)器輸出結(jié)果的關(guān)聯(lián)性。
6 試驗(yàn)結(jié)果
為了測(cè)試模式識(shí)別方法,只選擇Ftp服務(wù),從中選取有代表性的30個(gè)特征,并分為3類(lèi):4個(gè)網(wǎng)絡(luò)特征、7個(gè)統(tǒng)計(jì)特征和19個(gè)內(nèi)容特征。特征值都被規(guī)格化為[0,1]。訓(xùn)練集包括122個(gè)正常數(shù)據(jù)、6個(gè)U2R(非授權(quán)的本地根用戶(hù)權(quán)限訪問(wèn))攻擊、539個(gè) R2L(非授權(quán)的遠(yuǎn)程訪問(wèn))攻擊、1個(gè)探測(cè)和57個(gè)DoS(拒絕服務(wù))攻擊,一共725次連接,測(cè)試集有7 400個(gè)連接。
單分類(lèi)器系統(tǒng)總體性能對(duì)比如表1所示。表中對(duì)比了3類(lèi)不同特征集訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的性能。這些網(wǎng)絡(luò)是用3層神經(jīng)元組成的完全連接多層感知機(jī)。這3層神經(jīng)元分別是輸入層、隱含層和輸出層神經(jīng)元。每個(gè)網(wǎng)絡(luò)有5個(gè)輸出神經(jīng)元作為數(shù)據(jù)類(lèi)的數(shù)量,代表5種不同的輸出數(shù)據(jù)類(lèi)。輸入神經(jīng)元個(gè)數(shù)與特征值數(shù)量相同。隱含層由5個(gè)神經(jīng)元組成。神經(jīng)網(wǎng)絡(luò)采用BP算法,用不同學(xué)習(xí)率、隨機(jī)初始權(quán)值和偏差值進(jìn)行訓(xùn)練,表1顯示了在測(cè)試集中獲得的性能。

從統(tǒng)計(jì)數(shù)據(jù)可以看出,除了用統(tǒng)計(jì)特征訓(xùn)練的神經(jīng)網(wǎng)絡(luò)外,其他方法的性能比較接近,基于內(nèi)容特征的性能最好。從結(jié)果可以看出,內(nèi)容特征集最適合這類(lèi)網(wǎng)絡(luò)服務(wù),而統(tǒng)計(jì)特征集最差。
多分類(lèi)器系統(tǒng)的總體性能對(duì)比如表2所示。從表1和表2 的對(duì)比中看出,由于采用了多個(gè)分類(lèi)器的融合技術(shù),因而獲得了比單個(gè)分類(lèi)器更好的性能。相比固定的融合規(guī)則,可訓(xùn)練的融合規(guī)則提供了更好的性能。動(dòng)態(tài)分類(lèi)器選擇(Dynamic Classifier Selection,DCS)的性能最好,它更好地解決了精度和相關(guān)性的問(wèn)題。

7 結(jié) 論
本文提出了一種基于不同特征的多分類(lèi)器方法,給出了一組實(shí)驗(yàn)數(shù)據(jù),比較了單分類(lèi)器與多分類(lèi)器的總體性能。從結(jié)果可以看出,在入侵檢測(cè)系統(tǒng)中,多分類(lèi)器性能遠(yuǎn)優(yōu)于單分類(lèi)器。
以前提出的基于模式識(shí)別的入侵檢測(cè)方法的主要缺點(diǎn)就是虛警率較高。本文的工作將有助于設(shè)計(jì)更好的基于模式識(shí)別的入侵檢測(cè)。實(shí)驗(yàn)結(jié)論也證實(shí)了多分類(lèi)器融合的方法相比單分類(lèi)器而言,具有較低的虛警率和較高的準(zhǔn)確率。
參考文獻(xiàn)
1 哈根著,戴葵譯.神經(jīng)網(wǎng)絡(luò)設(shè)計(jì).北京:機(jī)械工業(yè)出版社,2002
2 趙誼虹.多分類(lèi)器融合中一個(gè)新的加權(quán)算法.上海交通大學(xué)學(xué)報(bào),2002;36(6)
3 Allen J,Christie A,F(xiàn)ithen W et al.State of the Practice of Intrusion Detection Technologies.http://www.sei.cmu.edu/publications/documents/99.reports/99tr028/99tr028abstract.
html,2000
4 Axelsson S.The Base-rate Fallacy and the Difficulty of Intrusion Detection.ACM Press,2000;3(8)
5 Lee W,Stolfo S J.A Framework for Constructing Features and Models for Intrusion Detection Systems.ACM Transactions on Information and System Security(TISSEC),2000;3(11)
