| 基于梯度优化的大语言模型后门识别探究 | |
| 所屬分類:技术论文 | |
| 上傳者:wwei | |
| 文檔大?。?span>1222 K | |
| 標(biāo)簽: 大语言模型 后门攻击 基于梯度的后门识别 | |
| 所需積分:0分積分不夠怎么辦? | |
| 文檔介紹:随着大语言模型的流行并且应用在越来越多的领域,大语言模型的安全问题也随之而来。 通常训练大语言模型对数据集以及计算资源有着极为苛刻的要求,所以有使用需求的用户大部分都直接利用网络上开源的数据集以及模型,这给后门攻击提供了绝佳的温室。后门攻击是指用户在模型中输入正常数据时模型表现像没有注入后门时一样正常,但当输入带有后门触发器的数据时模型输出异常。防止后门攻击的有效方法就是进行后门识别。目前基于梯度的优化方法是比较常用的,但使用这些方法时内部影响因子的设定对识别效果具有一定影响。文章就词令牌数量、最邻近数量、噪声大小进行了实验测量和作用机制的分析,以便为后续使用这些方法的研究者提供参考。 | |
| 現(xiàn)在下載 | |
| VIP會(huì)員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。 | |
Copyright ? 2005-2024 華北計(jì)算機(jī)系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號(hào)-2