《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 基于自編碼器的日志異常檢測(cè)方法研究
基于自編碼器的日志異常檢測(cè)方法研究
網(wǎng)絡(luò)安全與數(shù)據(jù)治理
楊光1,雷玉芳2,王鵬2,孫強(qiáng)2,閆凱鑫1,朱燕1,潘號(hào)龍1,王旭仁3
1.中國(guó)科學(xué)院信息工程研究所; 2.中鐵(北京)信息技術(shù)服務(wù)有限公司;3.首都師范大學(xué)
摘要: 系統(tǒng)日志蘊(yùn)含關(guān)鍵運(yùn)行信息與問題線索,但隨系統(tǒng)規(guī)模擴(kuò)大,日志數(shù)據(jù)愈發(fā)龐大復(fù)雜,自動(dòng)化異常檢測(cè)成為研究重點(diǎn)。當(dāng)前研究面臨日志數(shù)據(jù)不平衡、有標(biāo)簽數(shù)據(jù)稀少導(dǎo)致檢測(cè)精度不足的挑戰(zhàn)。為應(yīng)對(duì)挑戰(zhàn),提出了多窗口LSTM自編碼器日志異常檢測(cè)方法,主要圍繞日志數(shù)據(jù)處理、自編碼模型和日志事件分類三個(gè)方面展開。該方法結(jié)合LSTM與自編碼器優(yōu)勢(shì),并利用多窗口策略捕捉不同時(shí)間尺度上下文信息,針對(duì)時(shí)間敏感的日志提供了更有效的異常檢測(cè)方案。實(shí)驗(yàn)結(jié)果表明,該方法在HDFS和BGL兩個(gè)公共數(shù)據(jù)集上均取得了較高的F1值,相比其他方法具有更好的異常檢測(cè)效果。
中圖分類號(hào):TP393.08;TP309文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.19358/j.issn.2097-1788.2025.12.003引用格式:楊光,雷玉芳,王鵬,等. 基于自編碼器的日志異常檢測(cè)方法研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(12):16-25.
Research on log anomaly detection method based on autoencoder
Yang Guang1, Lei Yufang2, Wang Peng2, Sun Qiang2, Yan Kaixin1, Zhu Yan1, Pan Haolong1, Wang Xuren3
1. Institute of Information Engineering, Chinese Academy of Sciences;2. SinoRail (Beijing) Information Technology Service Co., Ltd.;3. Capital Normal University
Abstract: System logs contain key operational information and problem clues. However, as the system scale expands, log data becomes increasingly large and complex, making automated anomaly detection a research focus. Current studies face challenges such as imbalanced log data and insufficient labeled data, which lead to low detection accuracy. To address these challenges, a log anomaly detection method based on MultiWindow Long ShortTerm Memory (LSTM) Autoencoder is proposed, focusing on three aspects: log data processing, autoencoder model, and log event classification. This method combines the advantages of LSTM and autoencoder, and uses a multiwindow strategy to capture contextual information at different time scales, providing a more effective anomaly detection solution for timesensitive logs. Experimental results show that this method achieves high F1scores on two public datasets, Hadoop Distributed File System (HDFS) and Blue Gene/L (BGL), and exhibits better anomaly detection performance compared with other methods.
Key words : system logs; anomaly detection; deep learning; autoencoder

引言

在信息時(shí)代,大量的計(jì)算機(jī)和網(wǎng)絡(luò)系統(tǒng)被廣泛應(yīng)用于各行各業(yè)。幾乎所有的計(jì)算機(jī)系統(tǒng)都會(huì)在運(yùn)行時(shí)將系統(tǒng)執(zhí)行期間發(fā)生的信息和異常事件附加到一個(gè)或多個(gè)特殊文件中——稱為系統(tǒng)日志、日志文件或簡(jiǎn)稱為日志[1]。系統(tǒng)操作員需要根據(jù)日志中包含的意外和疑似不安全的系統(tǒng)活動(dòng)痕跡,來及時(shí)采取行動(dòng),以防止或減少系統(tǒng)的損壞,并避免不利的級(jí)聯(lián)效應(yīng)[2]。在傳統(tǒng)的日志分析領(lǐng)域,開發(fā)人員往往依賴于其專業(yè)領(lǐng)域知識(shí),通過手動(dòng)檢查、編寫規(guī)則、統(tǒng)計(jì)學(xué)分析或聚類等手段,人工識(shí)別特征和建立規(guī)則。然而,隨著網(wǎng)絡(luò)安全形勢(shì)的演變,網(wǎng)絡(luò)入侵攻擊已逐漸從單一、直接、易于識(shí)別轉(zhuǎn)變?yōu)橛薪M織、有目的、長(zhǎng)時(shí)間潛伏等更為復(fù)雜和隱蔽的形式,系統(tǒng)的應(yīng)用呈現(xiàn)規(guī)?;l(fā)展、分布式部署、高并行和冗余運(yùn)行的特征,日志數(shù)據(jù)爆炸式增長(zhǎng)[3]。面對(duì)大量的日志數(shù)據(jù)和隱蔽性高的攻擊手段,傳統(tǒng)檢測(cè)方法適用程度低。此外,由于日志異常事件通常是少數(shù)類別,這會(huì)導(dǎo)致類別分布的不平衡,從而影響異常檢測(cè)的精度。人工神經(jīng)網(wǎng)絡(luò)為解決上述問題提供了新的思路,在沒有人類干預(yù)的情況下自動(dòng)化地提取特征和識(shí)別日志中的異常模式,為用戶提供了一種快速、可靠、準(zhǔn)確的方式來監(jiān)測(cè)系統(tǒng)的狀態(tài)和性能。自編碼器(Autoencoder)作為一種無監(jiān)督學(xué)習(xí)模型,因具有魯棒性強(qiáng)、可解釋性好的特點(diǎn),不僅在圖像、文本等數(shù)據(jù)的降維和特征提取上有著廣泛的應(yīng)用,也在異常檢測(cè)上展現(xiàn)出巨大的潛力。在時(shí)間序列預(yù)測(cè)方面,長(zhǎng)短期記憶網(wǎng)絡(luò)(Long ShortTerm Memory, LSTM)也展現(xiàn)出強(qiáng)大的實(shí)力,無論是金融市場(chǎng)的價(jià)格預(yù)測(cè)、氣象數(shù)據(jù)的趨勢(shì)分析,還是工業(yè)領(lǐng)域的故障預(yù)警,其能通過捕捉時(shí)序數(shù)據(jù)中的復(fù)雜模式,提供準(zhǔn)確的預(yù)測(cè)結(jié)果。因此,本文結(jié)合LSTM在序列數(shù)據(jù)處理上的優(yōu)勢(shì)與自編碼器在特征學(xué)習(xí)上的能力,使用多窗口策略捕捉日志數(shù)據(jù)中不同時(shí)間尺度的上下文信息,針對(duì)時(shí)間敏感的日志提供了更有效的異常檢測(cè)方案。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://www.ihrv.cn/resource/share/2000006895


作者信息:

楊光1,雷玉芳2,王鵬2,孫強(qiáng)2,閆凱鑫1,朱燕1,潘號(hào)龍1,王旭仁3

(1.中國(guó)科學(xué)院信息工程研究所,北京100085;

2.中鐵(北京)信息技術(shù)服務(wù)有限公司,北京100055;

3.首都師范大學(xué),北京100048)


官方訂閱.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。