《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 設(shè)計(jì)應(yīng)用 > 領(lǐng)域大語(yǔ)言模型的內(nèi)容安全控制研究
領(lǐng)域大語(yǔ)言模型的內(nèi)容安全控制研究
網(wǎng)絡(luò)安全與數(shù)據(jù)治理
張欣欣1,李濤1,趙龍彪1,賈真真2,周衡廣3
1.中國(guó)人民解放軍92981部隊(duì);2.中國(guó)人民解放軍91977部隊(duì); 3.中國(guó)人民解放軍91526部隊(duì)
摘要: 隨著大語(yǔ)言模型在非通用領(lǐng)域中的廣泛應(yīng)用,其在知識(shí)管理、決策支持和安全信息交流等方面展現(xiàn)出巨大潛力。然而,這些領(lǐng)域具有高度的專業(yè)性和敏感性,在特定場(chǎng)景下確保輸出內(nèi)容的安全性與合規(guī)性是主要挑戰(zhàn)?,F(xiàn)有方法主要依賴模型的重新訓(xùn)練或微調(diào),成本高且靈活性不足。提出了一種無(wú)需重新訓(xùn)練模型的精細(xì)化輸出控制方法,將輸出控制抽象為分類問(wèn)題,利用分類算法對(duì)生成內(nèi)容進(jìn)行判斷,決定是否輸出。該機(jī)制結(jié)合數(shù)學(xué)建模與特征工程,力求在滿足業(yè)務(wù)需求的同時(shí),最大限度地減少潛在風(fēng)險(xiǎn),提升輸出的安全性與合規(guī)性。
中圖分類號(hào):TP309文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.19358/j.issn.2097-1788.2025.11.001引用格式:張欣欣,李濤,趙龍彪,等. 領(lǐng)域大語(yǔ)言模型的內(nèi)容安全控制研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(11):1-6.
Research on content safety control of domainspecific large language models
Zhang Xinxin1,Li Tao1,Zhao Longbiao1,Jia Zhenzhen2,Zhou Hengguang3
1. Unit 92981 of the PLA;2. Unit 91977 of the PLA; 3. Unit 91526 of the PLA
Abstract: With the increasing adoption of large language models in specialized domains, these models have demonstrated significant potential in areas such as knowledge management, decision support, and secure information exchange. However, given the high level of specialization and sensitivity in these domains, ensuring the safety and compliance of generated content in specific scenarios presents a major challenge. Current approaches predominantly rely on model retraining or finetuning, which are resourceintensive and lack flexibility. This study proposes a refined output control method that bypasses the need for model retraining. By framing output control as a classification problem, classification algorithms are employed to evaluate generated content and determine its appropriateness for release. This mechanism combines mathematical modeling and feature engineering to strike a balance between meeting business requirements and minimizing potential risks, thereby enhancing the safety and compliance of generated outputs.
Key words : large language model; safety control; content filtering; classification algorithm

引言

大型語(yǔ)言模型(Large Language Models,LLMs)近年來(lái)因其卓越的語(yǔ)言理解和生成能力而受到了廣泛的關(guān)注。然而,這些模型也可能生成有害、侵犯隱私或者不安全的內(nèi)容[1-2],對(duì)用戶和社會(huì)造成潛在的風(fēng)險(xiǎn)。而特定領(lǐng)域的大語(yǔ)言模型面向特定行業(yè)和特定需求,通常具有高度的專業(yè)性和敏感性,對(duì)安全要求更高。因此,對(duì)于非通用領(lǐng)域大模型來(lái)說(shuō),輸出內(nèi)容的安全性和合規(guī)性是主要的挑戰(zhàn)之一。與現(xiàn)有方法不同,本研究提出的方法具有跨領(lǐng)域適用性,可以獨(dú)立于LLMs的底層設(shè)計(jì)進(jìn)行應(yīng)用,并且通過(guò)干預(yù)模型輸出來(lái)確保生成文本的安全性和合規(guī)性,從而為領(lǐng)域LLMs的安全控制提供了一種新穎且實(shí)用的解決方案。

為了有效控制大語(yǔ)言模型生成的內(nèi)容,必須確保敏感信息的精準(zhǔn)識(shí)別和安全過(guò)濾,同時(shí)滿足特定場(chǎng)景的業(yè)務(wù)需求。為此,學(xué)者們提出了多種方法來(lái)增強(qiáng)模型的可靠性和內(nèi)容質(zhì)量,以應(yīng)對(duì)這些問(wèn)題。目前,主流的增強(qiáng)模型安全性和可靠性的方法是基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning with Human Feedback,RLHF)[3]。通過(guò)人類反饋構(gòu)建獎(jiǎng)勵(lì)模型,并利用該模型對(duì)LLMs進(jìn)行訓(xùn)練,使其能夠生成符合人類期望的內(nèi)容。RLHF架構(gòu)的多個(gè)變體也相繼提出,如SafeRLHF[4]、SENSEI[5]和fDPG[6],這些方法在不同方面進(jìn)行了優(yōu)化,如采用預(yù)訓(xùn)練的LLMs作為獎(jiǎng)勵(lì)模型,或者在信息檢索領(lǐng)域中提升模型的表現(xiàn)[7]。然而,收集人類標(biāo)注數(shù)據(jù)需要大量時(shí)間和成本。為了解決這一問(wèn)題,一些研究提出了通過(guò)人工智能反饋代替人類反饋的強(qiáng)化學(xué)習(xí)[8],從而降低對(duì)人類標(biāo)注的依賴。還有研究致力于自動(dòng)構(gòu)建訓(xùn)練數(shù)據(jù),以進(jìn)一步降低成本和復(fù)雜性。為提高計(jì)算效率,差分偏好優(yōu)化[9]是一種重要的嘗試,該方法的核心思想是允許在不訪問(wèn)獎(jiǎng)勵(lì)模型的情況下使用相同的訓(xùn)練數(shù)據(jù)對(duì)LLMs進(jìn)行訓(xùn)練。另一種常見(jiàn)的提高模型可靠性的方法是監(jiān)督微調(diào)(Supervised FineTuning,SFT)[10],該方法通過(guò)大規(guī)模標(biāo)注數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào),以提升模型對(duì)用戶需求的響應(yīng)能力。RLHF和SFT的共同點(diǎn)在于它們通過(guò)直接修改模型參數(shù)來(lái)提高模型的可靠性。

除了修改模型參數(shù)外,增強(qiáng)LLMs可靠性的另一種替代方法是直接干預(yù)輸入提示或輸出生成的過(guò)程。上下文學(xué)習(xí)(InContext Learning,ICL)[11]是通過(guò)干預(yù)輸入提示的一種主要方法。在ICL中,通過(guò)提供少量示例,可以引導(dǎo)LLMs完成特定任務(wù),例如少樣本學(xué)習(xí)[12],從而減少生成不合規(guī)內(nèi)容的風(fēng)險(xiǎn)。此外,一些研究集中于干預(yù)輸出生成的方式。文獻(xiàn)[13]提出了用于檢索應(yīng)用的輸出格式化方法,避免LLMs在輸出中重復(fù)相同詞匯或短語(yǔ)。此外,Transformers模塊還提供了一些用于修正輸出的函數(shù),如NoBadWordsLogitsProcessor和MinLengthLogitsProcessor。

現(xiàn)有的LLMs安全性控制方法主要依賴于預(yù)訓(xùn)練模型本身的優(yōu)化或后處理技術(shù)。然而,這些方法通常存在局限性,例如依賴底層模型的設(shè)計(jì)或難以適用于不同領(lǐng)域的文本生成需求。為了解決上述方法靈活性不足的問(wèn)題,有學(xué)者對(duì)LLM的輸出過(guò)濾技術(shù)進(jìn)行了一些研究,即在LLM生成文本后實(shí)施內(nèi)容審查,無(wú)需修改模型參數(shù)[14]。針對(duì)輸出內(nèi)容的過(guò)濾技術(shù),當(dāng)前主要是通過(guò)預(yù)定義敏感詞庫(kù)或正則表達(dá)式匹配攔截的基于規(guī)則的過(guò)濾,這種方法實(shí)現(xiàn)簡(jiǎn)單但泛化能力有限,難以識(shí)別語(yǔ)義變體以及進(jìn)行細(xì)粒度權(quán)限控制[15]。

為了有效控制非通用領(lǐng)域大語(yǔ)言模型生成的內(nèi)容,本文提出了一種基于數(shù)學(xué)建模、特征工程和分類算法的安全過(guò)濾控制方法,通過(guò)應(yīng)用一個(gè)安全過(guò)濾器來(lái)干預(yù)LLMs的輸出(即干預(yù)大語(yǔ)言模型生成序列的軌跡),進(jìn)而確保生成內(nèi)容符合安全和合規(guī)標(biāo)準(zhǔn),以生成用戶期望的結(jié)果。該方法不僅獨(dú)立于LLMs的設(shè)計(jì),還能夠靈活地應(yīng)用于不同領(lǐng)域的文本生成場(chǎng)景,具有廣泛的適用性和較強(qiáng)的實(shí)用價(jià)值。

本文主要貢獻(xiàn)如下:

本文提出了一種面向特定領(lǐng)域大語(yǔ)言模型的內(nèi)容安全控制機(jī)制,設(shè)計(jì)了一個(gè)添加于LLMs輸出層的外部過(guò)濾器,從而實(shí)現(xiàn)無(wú)需訪問(wèn)其模型參數(shù)即可控制輸出內(nèi)容。這是一個(gè)新穎的“無(wú)需學(xué)習(xí)”的LLMs安全控制策略,它不依賴LLMs的底層設(shè)計(jì),可以應(yīng)用于多種特定領(lǐng)域的LLMs,具有良好的通用性和適應(yīng)性。

此外,本文針對(duì)特定領(lǐng)域的行業(yè)特點(diǎn)和安全隱私特性,抽取了一些特征因素,并結(jié)合分類算法和特征工程,在大語(yǔ)言模型內(nèi)容安全控制領(lǐng)域做出了一些新的嘗試。與現(xiàn)有基于規(guī)則或詞典的安全過(guò)濾方法不同,特征工程技術(shù)結(jié)合分類算法能夠更精確地識(shí)別和過(guò)濾潛在的風(fēng)險(xiǎn)文本,極大提升了檢測(cè)精度和適用范圍。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://www.ihrv.cn/resource/share/2000006854


作者信息:

張欣欣1,李濤1,趙龍彪1,賈真真2,周衡廣3

(1.中國(guó)人民解放軍92981部隊(duì),北京100161;

2.中國(guó)人民解放軍91977部隊(duì),北京100036;

3.中國(guó)人民解放軍91526部隊(duì),廣東湛江524064)


subscribe.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。