引用格式:尤剛,徐蕾,李美鵬,等. 基于機器學習和規(guī)則的網(wǎng)絡異常流量檢測研究[J].網(wǎng)絡安全與數(shù)據(jù)治理,2025,44(2):1-9.
引言
在網(wǎng)絡安全領域,網(wǎng)絡異常流量檢測至關重要。當前網(wǎng)絡異常流量檢測方法主要有基于機器學習、基于規(guī)則以及兩者混合的。
機器學習中的有監(jiān)督學習方法依賴標注好的數(shù)據(jù),在數(shù)據(jù)集質(zhì)量高時能實現(xiàn)較好的檢測效果。例如,Hu[1]等人提出了魯棒性的SVM算法,展現(xiàn)出對噪聲處理的強大能力,增強了模型的穩(wěn)定性;Kabir等人[2]提出了一個改進的SVM方法LS-SVM,實驗結果證明該方法在準確性和效率方面有了顯著提升。
機器學習中的半監(jiān)督學習介于監(jiān)督和無監(jiān)督之間,通過結合已標注正例與未標注數(shù)據(jù)訓練模型,可實現(xiàn)較好分類性能。Jabbar等人[3]提出了一個以迭代的方式進行聚類的半監(jiān)督學習器,實驗結果顯示該方法可以實現(xiàn)較高的準確率和較低的誤報率。
機器學習中的無監(jiān)督學習算法不依賴標注數(shù)據(jù)集,適應性強,但準確性不如有監(jiān)督學習,且誤報率較高。Syarif等人[4]研究對比了常用的聚類和有監(jiān)督學習方法,實驗結果顯示無監(jiān)督的聚類算法誤報率較高,約為20%。
基于規(guī)則的網(wǎng)絡異常流量檢測通過將專家定義的規(guī)則與流量進行匹配來識別異常流量。Suricata是一個開源的網(wǎng)絡入侵檢測和阻止引擎,其在多方面表現(xiàn)出色,但存在無法檢測未知流量、實時性差等局限。
混合網(wǎng)絡異常流量檢測有串行和并行兩大方向。并行檢測中基于規(guī)則的工具和基于機器學習的分類器同步運作。例如,Shah等人[5]提出了一個并行處理框架,將Snort與SVM同時運作,實驗顯示該系統(tǒng)具有較好的檢測精度。串行檢測則順序運用兩者。例如,Chiba[6]等人介紹了一種以Suricata和隔離森林算法為核心的檢測框架,其中Suricata作為初步過濾器,由隔離森林算法進行進一步的異常流量識別,實現(xiàn)了對未知攻擊的有效檢測。
考慮到系統(tǒng)的效率,本文選擇構建串行的檢測系統(tǒng),即將基于機器學習的檢測方法作為第一道過濾器,將基于規(guī)則的工具作為第二道過濾器。然而,現(xiàn)行的流聚類算法存在準確率較低的問題,導致過多可疑流量被傳遞至Suricata系統(tǒng);此外,Suricata存在無法識別未知異常流量的問題。本文對上述問題進行了改進研究:
(1)針對流聚類算法準確率較低的問題,提出了一種可以動態(tài)確定半徑閾值的流聚類算法,并進行了對比實驗;(2)針對Suricata系統(tǒng)僅能識別已知的異常流量問題,提出了基于Apriori的含有效負載約束的規(guī)則生成算法;(3)將基于規(guī)則的Suricata系統(tǒng)和基于機器學習的流聚類算法集成,并進行了消融實驗[7]。
本文詳細內(nèi)容請下載:
http://www.ihrv.cn/resource/share/2000006336
作者信息:
尤剛1,徐蕾2,李美鵬1,劉文杰1,張鵬1,陸振奎2
(1.96941部隊,北京100085;
2.中國航天時代電子有限公司,北京100094)