中文引用格式:馬可,何明樞,蔡晶晶,等. 基于雙模型的半監(jiān)督流形混合流量分類方法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2026,45(1):1-8.
英文引用格式:Ma Ke,He Mingshu,Cai Jingjing, et al. A semi-supervised manifold mixup traffic classification method based on MeanTeacher[J].Cyber Security and Data Governance,2026,45(1):1-8.
引言
網(wǎng)絡(luò)流量分類(Traffic Classification)技術(shù)能夠精準(zhǔn)識別不同應(yīng)用程序或服務(wù)所產(chǎn)生的網(wǎng)絡(luò)流量,同時探測出潛在的威脅流量,這對于維護網(wǎng)絡(luò)安全與穩(wěn)定運行具有關(guān)鍵意義。如今,互聯(lián)網(wǎng)技術(shù)呈現(xiàn)出日新月異的發(fā)展態(tài)勢,網(wǎng)絡(luò)流量也隨之呈現(xiàn)出爆炸式增長以及復(fù)雜化的特點。流量加密技術(shù),諸如廣泛運用的TLS/SSL協(xié)議,在切實保障用戶隱私和數(shù)據(jù)安全方面成效顯著。然而,這種加密技術(shù)的廣泛應(yīng)用也給網(wǎng)絡(luò)流量分類帶來了前所未有的挑戰(zhàn)。傳統(tǒng)的流量分類方法,例如基于端口的方法,主要依據(jù)流量五元組中的端口號信息來推斷應(yīng)用類型。然而,面對當(dāng)下動態(tài)端口和端口偽裝技術(shù),尤其是針對日益復(fù)雜的加密流量,這類簡單依賴端口或明文載荷的方法已經(jīng)暴露出明顯的局限性,難以滿足實際需求。隨著研究的不斷深入,機器學(xué)習(xí)(Machine Learning)方法被引入到流量分類領(lǐng)域。但目前的機器學(xué)習(xí)方法大多依賴于人工設(shè)計的流量特征,這在很大程度上限制了其泛化能力,使其難以應(yīng)對復(fù)雜多變的網(wǎng)絡(luò)環(huán)境。而深度學(xué)習(xí)(Deep Learning)方法雖具備自動從原始數(shù)據(jù)中提取有效特征的優(yōu)勢,但對大量標(biāo)記數(shù)據(jù)存在高度依賴性,而在網(wǎng)絡(luò)安全領(lǐng)域,獲取大規(guī)模、高質(zhì)量的標(biāo)記流量數(shù)據(jù)成本高昂。同時,當(dāng)訓(xùn)練數(shù)據(jù)規(guī)模不足、代表性不強或存在偏差時,深度模型因其高復(fù)雜度和海量參數(shù),極易學(xué)習(xí)到數(shù)據(jù)中的噪聲而非普適規(guī)律,從而導(dǎo)致過擬合問題,降低了模型在真實網(wǎng)絡(luò)環(huán)境中的泛化能力。鑒于上述問題,本文提出了一種基于教師-學(xué)生雙模型的半監(jiān)督流形混合流量分類方法(Manifold Mixup Mean Teacher,M3T)。教師-學(xué)生架構(gòu)(Mean Teacher,MT)是一種利用雙模型架構(gòu)的先進方法。在該架構(gòu)中,學(xué)生模型借助梯度下降方法,利用標(biāo)記數(shù)據(jù)與無標(biāo)記數(shù)據(jù)進行更新迭代;而教師模型則采用移動指數(shù)平均(Exponential Moving Average, EMA)方式更新參數(shù),憑借其更為穩(wěn)定的輸出,對學(xué)生的模型學(xué)習(xí)過程進行有效監(jiān)督,進而顯著提升模型的泛化性能。在此基礎(chǔ)上,本研究進一步引入由教師模型引導(dǎo)的流形特征混合機制,于教師模型的深層特征空間中運用流形混合(Manifold Mixup)方法,構(gòu)建起“教師特征擾動-學(xué)生動態(tài)對齊”的雙向優(yōu)化框架,以此增強模型對特征擾動的魯棒性,同時優(yōu)化決策邊界,使其更適應(yīng)復(fù)雜的流量分類場景。綜上所述,本文的主要貢獻為:(1)提出教師模型引導(dǎo)的流形特征混合機制,將流形混合遷移至教師模型的深層特征空間,構(gòu)建“教師特征擾動-學(xué)生動態(tài)對齊”雙向優(yōu)化框架。利用教師EMA參數(shù)提供的穩(wěn)定特征表達,避免學(xué)生模型早期特征的不確定性干擾。(2)通過三項損失的協(xié)同,在模型框架中實現(xiàn)基礎(chǔ)分類、一致性對齊與決策邊界平滑的聯(lián)合優(yōu)化。交叉熵?fù)p失保證基礎(chǔ)分類能力;一致性損失強制學(xué)生輸出與教師輸出對齊,實現(xiàn)一致性正則化,緩解模型過擬合問題;混合損失增強模型對特征擾動的魯棒性,優(yōu)化決策邊界平滑。(3)提出一種基于教師-學(xué)生架構(gòu)的半監(jiān)督流形混合網(wǎng)絡(luò)流量分類模型框架,在多個流量數(shù)據(jù)集上評估預(yù)訓(xùn)練模型,結(jié)果顯示能夠普遍取得90%以上的準(zhǔn)確率。
本文詳細內(nèi)容請下載:
http://www.ihrv.cn/resource/share/2000006926
作者信息:
馬可1,何明樞1,蔡晶晶2,王小娟1
(1.北京郵電大學(xué)電子工程學(xué)院,北京100876;
2.永信至誠科技集團股份有限公司,北京100089)

