123,123,123

基于双模型的半监督流形混合流量分类方法

网络安全与数据治理

马可1，何明枢1，蔡晶晶2，王小娟1

1.北京邮电大学电子工程学院；2.永信至诚科技集团股份有限公司

摘要： 深度学习技术在网络流量分类领域中得到广泛应用，但存在对大量数据的依赖以及过拟合问题。为解决该问题，提出了一种结合双模型协作与流形混合的半监督深度学习方法。该方法使用教师-学生架构，通过移动指数平均辅助模型学习过程，从而提升模型的泛化性能，并于模型的特征空间中进行数据的流形混合，能够有效改善模型的决策边界，进一步增强模型的鲁棒性。实验结果表明，在不同数据类别，数据量为1 000的条件下，方法在三种网络流量数据集上都能达到90%以上的准确率，并在更少量数据的条件下保持较高的分类精度。

關(guān)鍵詞： 流量分类半监督学习流形混合教师-学生模型

中圖分類號(hào)：TP393.08文獻(xiàn)標(biāo)志碼：ADOI:10.19358/j.issn.2097-1788.2026.01.001
中文引用格式：馬可，何明樞，蔡晶晶，等. 基于雙模型的半監(jiān)督流形混合流量分類方法［J］.網(wǎng)絡(luò)安全與數(shù)據(jù)治理，2026，45（1）：1-8.
英文引用格式：Ma Ke，He Mingshu，Cai Jingjing， et al. A semi-supervised manifold mixup traffic classification method based on MeanTeacher［J］.Cyber Security and Data Governance，2026，45（1）：1-8.

A semi-supervised manifold mixup traffic classification method based on Mean-Teacher

Ma Ke1，He Mingshu1，Cai Jingjing2，Wang Xiaojuan1

1. School of Electronic Engineering, Beijing University of Posts and Telecommunications; 2. Integrity Technology Group Inc.

Abstract： Deep Learning techniques have been widely applied in the field of network traffic classification. However, there still exist various challenges, including dependency on large scale data and overfitting. To address these issues, a semisupervised deep learning method combining mean teacher and manifold mixup is proposed. This method employs a teacher-student architecture, utilizing Exponential Moving Average (EMA) to assist the model learning process and to enhance the generalization capability of model. Additionally, manifold mixup in the feature space effectively refines the model′s decision boundary, strengthening robustness. Experimental results demonstrate that with only 1 000 samples per class, the method achieves over 90% accuracy across three network traffic datasets while maintaining outstanding performance under fewshot condition.

Key words : traffic classification; semisupervised learning; manifold mixup; teacher-student model

引言

網(wǎng)絡(luò)流量分類(Traffic Classification)技術(shù)能夠精準(zhǔn)識(shí)別不同應(yīng)用程序或服務(wù)所產(chǎn)生的網(wǎng)絡(luò)流量，同時(shí)探測(cè)出潛在的威脅流量，這對(duì)于維護(hù)網(wǎng)絡(luò)安全與穩(wěn)定運(yùn)行具有關(guān)鍵意義。如今，互聯(lián)網(wǎng)技術(shù)呈現(xiàn)出日新月異的發(fā)展態(tài)勢(shì)，網(wǎng)絡(luò)流量也隨之呈現(xiàn)出爆炸式增長(zhǎng)以及復(fù)雜化的特點(diǎn)。流量加密技術(shù)，諸如廣泛運(yùn)用的TLS/SSL協(xié)議，在切實(shí)保障用戶隱私和數(shù)據(jù)安全方面成效顯著。然而，這種加密技術(shù)的廣泛應(yīng)用也給網(wǎng)絡(luò)流量分類帶來了前所未有的挑戰(zhàn)。傳統(tǒng)的流量分類方法，例如基于端口的方法，主要依據(jù)流量五元組中的端口號(hào)信息來推斷應(yīng)用類型。然而，面對(duì)當(dāng)下動(dòng)態(tài)端口和端口偽裝技術(shù)，尤其是針對(duì)日益復(fù)雜的加密流量，這類簡(jiǎn)單依賴端口或明文載荷的方法已經(jīng)暴露出明顯的局限性，難以滿足實(shí)際需求。隨著研究的不斷深入，機(jī)器學(xué)習(xí)(Machine Learning)方法被引入到流量分類領(lǐng)域。但目前的機(jī)器學(xué)習(xí)方法大多依賴于人工設(shè)計(jì)的流量特征，這在很大程度上限制了其泛化能力，使其難以應(yīng)對(duì)復(fù)雜多變的網(wǎng)絡(luò)環(huán)境。而深度學(xué)習(xí)(Deep Learning)方法雖具備自動(dòng)從原始數(shù)據(jù)中提取有效特征的優(yōu)勢(shì)，但對(duì)大量標(biāo)記數(shù)據(jù)存在高度依賴性，而在網(wǎng)絡(luò)安全領(lǐng)域，獲取大規(guī)模、高質(zhì)量的標(biāo)記流量數(shù)據(jù)成本高昂。同時(shí)，當(dāng)訓(xùn)練數(shù)據(jù)規(guī)模不足、代表性不強(qiáng)或存在偏差時(shí)，深度模型因其高復(fù)雜度和海量參數(shù)，極易學(xué)習(xí)到數(shù)據(jù)中的噪聲而非普適規(guī)律，從而導(dǎo)致過擬合問題，降低了模型在真實(shí)網(wǎng)絡(luò)環(huán)境中的泛化能力。鑒于上述問題，本文提出了一種基于教師-學(xué)生雙模型的半監(jiān)督流形混合流量分類方法(Manifold Mixup Mean Teacher，M3T)。教師-學(xué)生架構(gòu)(Mean Teacher，MT)是一種利用雙模型架構(gòu)的先進(jìn)方法。在該架構(gòu)中，學(xué)生模型借助梯度下降方法，利用標(biāo)記數(shù)據(jù)與無標(biāo)記數(shù)據(jù)進(jìn)行更新迭代；而教師模型則采用移動(dòng)指數(shù)平均(Exponential Moving Average, EMA)方式更新參數(shù)，憑借其更為穩(wěn)定的輸出，對(duì)學(xué)生的模型學(xué)習(xí)過程進(jìn)行有效監(jiān)督，進(jìn)而顯著提升模型的泛化性能。在此基礎(chǔ)上，本研究進(jìn)一步引入由教師模型引導(dǎo)的流形特征混合機(jī)制，于教師模型的深層特征空間中運(yùn)用流形混合(Manifold Mixup)方法，構(gòu)建起“教師特征擾動(dòng)-學(xué)生動(dòng)態(tài)對(duì)齊”的雙向優(yōu)化框架，以此增強(qiáng)模型對(duì)特征擾動(dòng)的魯棒性，同時(shí)優(yōu)化決策邊界，使其更適應(yīng)復(fù)雜的流量分類場(chǎng)景。綜上所述，本文的主要貢獻(xiàn)為：(1)提出教師模型引導(dǎo)的流形特征混合機(jī)制，將流形混合遷移至教師模型的深層特征空間，構(gòu)建“教師特征擾動(dòng)-學(xué)生動(dòng)態(tài)對(duì)齊”雙向優(yōu)化框架。利用教師EMA參數(shù)提供的穩(wěn)定特征表達(dá)，避免學(xué)生模型早期特征的不確定性干擾。(2)通過三項(xiàng)損失的協(xié)同，在模型框架中實(shí)現(xiàn)基礎(chǔ)分類、一致性對(duì)齊與決策邊界平滑的聯(lián)合優(yōu)化。交叉熵?fù)p失保證基礎(chǔ)分類能力；一致性損失強(qiáng)制學(xué)生輸出與教師輸出對(duì)齊，實(shí)現(xiàn)一致性正則化，緩解模型過擬合問題；混合損失增強(qiáng)模型對(duì)特征擾動(dòng)的魯棒性，優(yōu)化決策邊界平滑。(3)提出一種基于教師-學(xué)生架構(gòu)的半監(jiān)督流形混合網(wǎng)絡(luò)流量分類模型框架，在多個(gè)流量數(shù)據(jù)集上評(píng)估預(yù)訓(xùn)練模型，結(jié)果顯示能夠普遍取得90%以上的準(zhǔn)確率。

本文詳細(xì)內(nèi)容請(qǐng)下載：

http://www.ihrv.cn/resource/share/2000006926

作者信息：

馬可1，何明樞1，蔡晶晶2，王小娟1

(1.北京郵電大學(xué)電子工程學(xué)院，北京100876；

2.永信至誠科技集團(tuán)股份有限公司，北京100089)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容