123,123

领域大语言模型的内容安全控制研究

网络安全与数据治理

张欣欣1，李涛1，赵龙彪1，贾真真2，周衡广3

1.中国人民解放军92981部队；2.中国人民解放军91977部队； 3.中国人民解放军91526部队

摘要： 随着大语言模型在非通用领域中的广泛应用，其在知识管理、决策支持和安全信息交流等方面展现出巨大潜力。然而，这些领域具有高度的专业性和敏感性，在特定场景下确保输出内容的安全性与合规性是主要挑战。现有方法主要依赖模型的重新训练或微调，成本高且灵活性不足。提出了一种无需重新训练模型的精细化输出控制方法，将输出控制抽象为分类问题，利用分类算法对生成内容进行判断，决定是否输出。该机制结合数学建模与特征工程，力求在满足业务需求的同时，最大限度地减少潜在风险，提升输出的安全性与合规性。

關(guān)鍵詞： 大语言模型安全控制内容过滤分类算法

中圖分類(lèi)號(hào)：TP309文獻(xiàn)標(biāo)識(shí)碼：ADOI:10.19358/j.issn.2097-1788.2025.11.001引用格式：張欣欣，李濤，趙龍彪，等. 領(lǐng)域大語(yǔ)言模型的內(nèi)容安全控制研究［J］.網(wǎng)絡(luò)安全與數(shù)據(jù)治理，2025，44（11）：1-6.

Research on content safety control of domainspecific large language models

Zhang Xinxin1，Li Tao1，Zhao Longbiao1，Jia Zhenzhen2，Zhou Hengguang3

1. Unit 92981 of the PLA;2. Unit 91977 of the PLA； 3. Unit 91526 of the PLA

Abstract： With the increasing adoption of large language models in specialized domains, these models have demonstrated significant potential in areas such as knowledge management, decision support, and secure information exchange. However, given the high level of specialization and sensitivity in these domains, ensuring the safety and compliance of generated content in specific scenarios presents a major challenge. Current approaches predominantly rely on model retraining or finetuning, which are resourceintensive and lack flexibility. This study proposes a refined output control method that bypasses the need for model retraining. By framing output control as a classification problem, classification algorithms are employed to evaluate generated content and determine its appropriateness for release. This mechanism combines mathematical modeling and feature engineering to strike a balance between meeting business requirements and minimizing potential risks, thereby enhancing the safety and compliance of generated outputs.

Key words : large language model; safety control; content filtering; classification algorithm

引言

大型語(yǔ)言模型(Large Language Models，LLMs)近年來(lái)因其卓越的語(yǔ)言理解和生成能力而受到了廣泛的關(guān)注。然而，這些模型也可能生成有害、侵犯隱私或者不安全的內(nèi)容［1-2］，對(duì)用戶(hù)和社會(huì)造成潛在的風(fēng)險(xiǎn)。而特定領(lǐng)域的大語(yǔ)言模型面向特定行業(yè)和特定需求，通常具有高度的專(zhuān)業(yè)性和敏感性，對(duì)安全要求更高。因此，對(duì)于非通用領(lǐng)域大模型來(lái)說(shuō)，輸出內(nèi)容的安全性和合規(guī)性是主要的挑戰(zhàn)之一。與現(xiàn)有方法不同，本研究提出的方法具有跨領(lǐng)域適用性，可以獨(dú)立于LLMs的底層設(shè)計(jì)進(jìn)行應(yīng)用，并且通過(guò)干預(yù)模型輸出來(lái)確保生成文本的安全性和合規(guī)性，從而為領(lǐng)域LLMs的安全控制提供了一種新穎且實(shí)用的解決方案。

為了有效控制大語(yǔ)言模型生成的內(nèi)容，必須確保敏感信息的精準(zhǔn)識(shí)別和安全過(guò)濾，同時(shí)滿(mǎn)足特定場(chǎng)景的業(yè)務(wù)需求。為此，學(xué)者們提出了多種方法來(lái)增強(qiáng)模型的可靠性和內(nèi)容質(zhì)量，以應(yīng)對(duì)這些問(wèn)題。目前，主流的增強(qiáng)模型安全性和可靠性的方法是基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning with Human Feedback，RLHF)［3］。通過(guò)人類(lèi)反饋構(gòu)建獎(jiǎng)勵(lì)模型，并利用該模型對(duì)LLMs進(jìn)行訓(xùn)練，使其能夠生成符合人類(lèi)期望的內(nèi)容。RLHF架構(gòu)的多個(gè)變體也相繼提出，如SafeRLHF［4］、SENSEI［5］和fDPG［6］，這些方法在不同方面進(jìn)行了優(yōu)化，如采用預(yù)訓(xùn)練的LLMs作為獎(jiǎng)勵(lì)模型，或者在信息檢索領(lǐng)域中提升模型的表現(xiàn)［7］。然而，收集人類(lèi)標(biāo)注數(shù)據(jù)需要大量時(shí)間和成本。為了解決這一問(wèn)題，一些研究提出了通過(guò)人工智能反饋代替人類(lèi)反饋的強(qiáng)化學(xué)習(xí)［8］，從而降低對(duì)人類(lèi)標(biāo)注的依賴(lài)。還有研究致力于自動(dòng)構(gòu)建訓(xùn)練數(shù)據(jù)，以進(jìn)一步降低成本和復(fù)雜性。為提高計(jì)算效率，差分偏好優(yōu)化［9］是一種重要的嘗試，該方法的核心思想是允許在不訪問(wèn)獎(jiǎng)勵(lì)模型的情況下使用相同的訓(xùn)練數(shù)據(jù)對(duì)LLMs進(jìn)行訓(xùn)練。另一種常見(jiàn)的提高模型可靠性的方法是監(jiān)督微調(diào)(Supervised FineTuning，SFT)［10］，該方法通過(guò)大規(guī)模標(biāo)注數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào)，以提升模型對(duì)用戶(hù)需求的響應(yīng)能力。RLHF和SFT的共同點(diǎn)在于它們通過(guò)直接修改模型參數(shù)來(lái)提高模型的可靠性。

除了修改模型參數(shù)外，增強(qiáng)LLMs可靠性的另一種替代方法是直接干預(yù)輸入提示或輸出生成的過(guò)程。上下文學(xué)習(xí)(InContext Learning，ICL)［11］是通過(guò)干預(yù)輸入提示的一種主要方法。在ICL中，通過(guò)提供少量示例，可以引導(dǎo)LLMs完成特定任務(wù)，例如少樣本學(xué)習(xí)［12］，從而減少生成不合規(guī)內(nèi)容的風(fēng)險(xiǎn)。此外，一些研究集中于干預(yù)輸出生成的方式。文獻(xiàn)［13］提出了用于檢索應(yīng)用的輸出格式化方法，避免LLMs在輸出中重復(fù)相同詞匯或短語(yǔ)。此外，Transformers模塊還提供了一些用于修正輸出的函數(shù)，如NoBadWordsLogitsProcessor和MinLengthLogitsProcessor。

現(xiàn)有的LLMs安全性控制方法主要依賴(lài)于預(yù)訓(xùn)練模型本身的優(yōu)化或后處理技術(shù)。然而，這些方法通常存在局限性，例如依賴(lài)底層模型的設(shè)計(jì)或難以適用于不同領(lǐng)域的文本生成需求。為了解決上述方法靈活性不足的問(wèn)題，有學(xué)者對(duì)LLM的輸出過(guò)濾技術(shù)進(jìn)行了一些研究，即在LLM生成文本后實(shí)施內(nèi)容審查，無(wú)需修改模型參數(shù)［14］。針對(duì)輸出內(nèi)容的過(guò)濾技術(shù)，當(dāng)前主要是通過(guò)預(yù)定義敏感詞庫(kù)或正則表達(dá)式匹配攔截的基于規(guī)則的過(guò)濾，這種方法實(shí)現(xiàn)簡(jiǎn)單但泛化能力有限，難以識(shí)別語(yǔ)義變體以及進(jìn)行細(xì)粒度權(quán)限控制［15］。

為了有效控制非通用領(lǐng)域大語(yǔ)言模型生成的內(nèi)容，本文提出了一種基于數(shù)學(xué)建模、特征工程和分類(lèi)算法的安全過(guò)濾控制方法，通過(guò)應(yīng)用一個(gè)安全過(guò)濾器來(lái)干預(yù)LLMs的輸出(即干預(yù)大語(yǔ)言模型生成序列的軌跡)，進(jìn)而確保生成內(nèi)容符合安全和合規(guī)標(biāo)準(zhǔn)，以生成用戶(hù)期望的結(jié)果。該方法不僅獨(dú)立于LLMs的設(shè)計(jì)，還能夠靈活地應(yīng)用于不同領(lǐng)域的文本生成場(chǎng)景，具有廣泛的適用性和較強(qiáng)的實(shí)用價(jià)值。

本文主要貢獻(xiàn)如下：

本文提出了一種面向特定領(lǐng)域大語(yǔ)言模型的內(nèi)容安全控制機(jī)制，設(shè)計(jì)了一個(gè)添加于LLMs輸出層的外部過(guò)濾器，從而實(shí)現(xiàn)無(wú)需訪問(wèn)其模型參數(shù)即可控制輸出內(nèi)容。這是一個(gè)新穎的“無(wú)需學(xué)習(xí)”的LLMs安全控制策略，它不依賴(lài)LLMs的底層設(shè)計(jì)，可以應(yīng)用于多種特定領(lǐng)域的LLMs，具有良好的通用性和適應(yīng)性。

此外，本文針對(duì)特定領(lǐng)域的行業(yè)特點(diǎn)和安全隱私特性，抽取了一些特征因素，并結(jié)合分類(lèi)算法和特征工程，在大語(yǔ)言模型內(nèi)容安全控制領(lǐng)域做出了一些新的嘗試。與現(xiàn)有基于規(guī)則或詞典的安全過(guò)濾方法不同，特征工程技術(shù)結(jié)合分類(lèi)算法能夠更精確地識(shí)別和過(guò)濾潛在的風(fēng)險(xiǎn)文本，極大提升了檢測(cè)精度和適用范圍。

本文詳細(xì)內(nèi)容請(qǐng)下載：

http://www.ihrv.cn/resource/share/2000006854

作者信息：

張欣欣1，李濤1，趙龍彪1，賈真真2，周衡廣3

(1.中國(guó)人民解放軍92981部隊(duì)，北京100161；

2.中國(guó)人民解放軍91977部隊(duì)，北京100036；

3.中國(guó)人民解放軍91526部隊(duì)，廣東湛江524064)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容