123,123

基于自编码器的日志异常检测方法研究

网络安全与数据治理

杨光1，雷玉芳2，王鹏2，孙强2，闫凯鑫1，朱燕1，潘号龙1，王旭仁3

1.中国科学院信息工程研究所； 2.中铁(北京)信息技术服务有限公司；3.首都师范大学

摘要： 系统日志蕴含关键运行信息与问题线索，但随系统规模扩大，日志数据愈发庞大复杂，自动化异常检测成为研究重点。当前研究面临日志数据不平衡、有标签数据稀少导致检测精度不足的挑战。为应对挑战，提出了多窗口LSTM自编码器日志异常检测方法，主要围绕日志数据处理、自编码模型和日志事件分类三个方面展开。该方法结合LSTM与自编码器优势，并利用多窗口策略捕捉不同时间尺度上下文信息，针对时间敏感的日志提供了更有效的异常检测方案。实验结果表明，该方法在HDFS和BGL两个公共数据集上均取得了较高的F1值，相比其他方法具有更好的异常检测效果。

關鍵詞： 系统日志异常检测深度学习自编码器

中圖分類號：TP393.08；TP309文獻標識碼：ADOI:10.19358/j.issn.2097-1788.2025.12.003引用格式：楊光，雷玉芳，王鵬，等. 基于自編碼器的日志異常檢測方法研究［J］.網絡安全與數據治理，2025，44（12）：16-25.

Research on log anomaly detection method based on autoencoder

Yang Guang1, Lei Yufang2, Wang Peng2, Sun Qiang2, Yan Kaixin1, Zhu Yan1, Pan Haolong1, Wang Xuren3

1. Institute of Information Engineering, Chinese Academy of Sciences;2. SinoRail (Beijing) Information Technology Service Co., Ltd.;3. Capital Normal University

Abstract： System logs contain key operational information and problem clues. However, as the system scale expands, log data becomes increasingly large and complex, making automated anomaly detection a research focus. Current studies face challenges such as imbalanced log data and insufficient labeled data, which lead to low detection accuracy. To address these challenges, a log anomaly detection method based on MultiWindow Long ShortTerm Memory (LSTM) Autoencoder is proposed, focusing on three aspects: log data processing, autoencoder model, and log event classification. This method combines the advantages of LSTM and autoencoder, and uses a multiwindow strategy to capture contextual information at different time scales, providing a more effective anomaly detection solution for timesensitive logs. Experimental results show that this method achieves high F1scores on two public datasets, Hadoop Distributed File System (HDFS) and Blue Gene/L (BGL), and exhibits better anomaly detection performance compared with other methods.

Key words : system logs; anomaly detection; deep learning; autoencoder

引言

在信息時代，大量的計算機和網絡系統(tǒng)被廣泛應用于各行各業(yè)。幾乎所有的計算機系統(tǒng)都會在運行時將系統(tǒng)執(zhí)行期間發(fā)生的信息和異常事件附加到一個或多個特殊文件中——稱為系統(tǒng)日志、日志文件或簡稱為日志［1］。系統(tǒng)操作員需要根據日志中包含的意外和疑似不安全的系統(tǒng)活動痕跡，來及時采取行動，以防止或減少系統(tǒng)的損壞，并避免不利的級聯效應［2］。在傳統(tǒng)的日志分析領域，開發(fā)人員往往依賴于其專業(yè)領域知識，通過手動檢查、編寫規(guī)則、統(tǒng)計學分析或聚類等手段，人工識別特征和建立規(guī)則。然而，隨著網絡安全形勢的演變，網絡入侵攻擊已逐漸從單一、直接、易于識別轉變?yōu)橛薪M織、有目的、長時間潛伏等更為復雜和隱蔽的形式，系統(tǒng)的應用呈現規(guī)?；l(fā)展、分布式部署、高并行和冗余運行的特征，日志數據爆炸式增長［3］。面對大量的日志數據和隱蔽性高的攻擊手段，傳統(tǒng)檢測方法適用程度低。此外，由于日志異常事件通常是少數類別，這會導致類別分布的不平衡，從而影響異常檢測的精度。人工神經網絡為解決上述問題提供了新的思路，在沒有人類干預的情況下自動化地提取特征和識別日志中的異常模式，為用戶提供了一種快速、可靠、準確的方式來監(jiān)測系統(tǒng)的狀態(tài)和性能。自編碼器(Autoencoder)作為一種無監(jiān)督學習模型，因具有魯棒性強、可解釋性好的特點，不僅在圖像、文本等數據的降維和特征提取上有著廣泛的應用，也在異常檢測上展現出巨大的潛力。在時間序列預測方面，長短期記憶網絡(Long ShortTerm Memory, LSTM)也展現出強大的實力，無論是金融市場的價格預測、氣象數據的趨勢分析，還是工業(yè)領域的故障預警，其能通過捕捉時序數據中的復雜模式，提供準確的預測結果。因此，本文結合LSTM在序列數據處理上的優(yōu)勢與自編碼器在特征學習上的能力，使用多窗口策略捕捉日志數據中不同時間尺度的上下文信息，針對時間敏感的日志提供了更有效的異常檢測方案。

本文詳細內容請下載：

http://www.ihrv.cn/resource/share/2000006895

作者信息：

楊光1，雷玉芳2，王鵬2，孫強2，閆凱鑫1，朱燕1，潘號龍1，王旭仁3

(1.中國科學院信息工程研究所，北京100085；

2.中鐵(北京)信息技術服務有限公司，北京100055；

3.首都師范大學，北京100048)

官方訂閱.jpg

原創(chuàng)聲明：此內容為AET網站原創(chuàng)，未經授權禁止轉載。

相關內容