123,123

基于差分隐私的数据脱敏技术研究

网络安全与数据治理

李思慧1，戴明超1，蔡伍洲2

1.武警吉林省总队； 2.武警部队作战勤务局

摘要： 随着人工智能和大数据技术的发展，全球数据产业规模和数据储量呈爆发式增长。在挖掘数据价值的同时，确保数据安全已成为亟需解决的关键问题。数据脱敏技术通过预先设定的规则和算法，对敏感数据进行变换，去除数据中的敏感信息，可防止敏感数据被非法访问、获取，又可以减少对整体数据集挖掘利用的影响，实现了保持数据可用性的同时，保护用户的隐私数据。针对神经网络预测模型中的数据隐私保护问题，利用差分隐私技术中的Laplace机制对Adult数据集进行脱敏，并在神经网络预测模型中进行验证，对比原始数据、差分隐私脱敏数据及其他脱敏技术数据生成模型的预测效果，结果表明，经差分隐私技术处理后的数据，既保证了数据隐私，又实现了数据的有效利用。

關鍵詞： 数据脱敏差分隐私 Laplace机制

中圖分類號：TP309文獻標識碼：ADOI:10.19358/j.issn.2097-1788.2025.02.006
引用格式：李思慧，戴明超，蔡伍洲. 基于差分隱私的數(shù)據(jù)脫敏技術研究［J］.網(wǎng)絡安全與數(shù)據(jù)治理，2025，44（2）：39-43.

Research on data desensitization technology based on differential privacy

Li Sihui1, Dai Mingchao1，Cai Wuzhou2

1.Jilin Armed Police Corps; 2.Combat Service Bureau, People′s Armed Police

Abstract： With the development of artificial intelligence and big data technology, the global data industry is experiencing explosive growth in scale and data reserves. Ensuring data security while mining its value has become a critical issue that urgently needs to be solved. Data desensitization technology transforms sensitive data with preset rules and algorithms, removing sensitive information from the data, preventing illegal access and acquisition of sensitive data, and reducing the impact on the overall data set mining and utilization, achieving privacy protection while maintaining data availability.This article addresses the issue of data privacy protection in neural network prediction models. The Laplace mechanism in differential privacy technology is used to desensitize the Adult data set and validated in the neural network prediction model. Comparing the predictive performance of the original data, differential privacysanitized data, and models generated from other desensitization techniques data, the results show that the data processed by differential privacy technology not only ensures data privacy but also achieves effective utilization of the data.

Key words : data desensitization; differential privacy; Laplace mechanism

引言

當前，人工智能、大模型、大數(shù)據(jù)技術飛速發(fā)展，數(shù)據(jù)是各項技術構建的關鍵基礎資源，全球數(shù)據(jù)產(chǎn)業(yè)正在呈爆發(fā)式增長。據(jù)國際數(shù)據(jù)公司（IDC）預測，2018~2025年，全球數(shù)據(jù)量將從33 ZB猛增至175 ZB，而根據(jù)工業(yè)和信息化部相關預測，2021~2025年，我國的大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將從1.3萬億元突破至3萬億元，數(shù)據(jù)已然成為推動經(jīng)濟社會發(fā)展最重要的基礎生產(chǎn)要素之一［1］。數(shù)據(jù)資源被充分利用的同時，數(shù)據(jù)安全問題也日益凸顯，數(shù)據(jù)被非法獲取事件頻頻發(fā)生，給企業(yè)和個人帶來了巨大損失。因此，在挖掘數(shù)據(jù)價值的同時，確保數(shù)據(jù)安全，已成為亟需解決的關鍵問題。

傳統(tǒng)的數(shù)據(jù)安全解決方案大多關注于數(shù)據(jù)的存儲和傳輸，在對數(shù)據(jù)進行挖掘利用時，仍然需要具有敏感信息的原始數(shù)據(jù)，數(shù)據(jù)非法竊取者可通過身份攻擊、屬性攻擊、存在性攻擊和概率知識攻擊等，推斷出個體敏感信息［2］。數(shù)據(jù)脫敏技術是通過對數(shù)據(jù)進行一定處理來保護隱私的技術，其目的是在保留輸入數(shù)據(jù)的統(tǒng)計特征以及可用性的同時，保護數(shù)據(jù)的隱私和安全［3］。差分隱私技術是數(shù)據(jù)脫敏技術的一種，該技術提供了一種隱私保護方法，旨在向原始數(shù)據(jù)注入噪聲或擾動，實現(xiàn)在保護個體數(shù)據(jù)隱私的同時，完成對數(shù)據(jù)的挖掘利用［4］。

差分隱私技術在國外研究較早，且技術日趨成熟。2006年，Dwork等人［5］首次提出了差分隱私保護方法，該方法通過向原始數(shù)據(jù)添加服從特定分布的噪聲，用以保護敏感數(shù)據(jù)，解決了傳統(tǒng)數(shù)據(jù)匿名脫敏技術無法抵抗背景知識攻擊的問題。2016年，Abadi等人［6］提出了具有差分隱私的深度學習算法，分析了差分隱私在深度學習框架內(nèi)的隱私成本，在保護數(shù)據(jù)隱私的同時，訓練出有效的深度學習模型。2019年，Holohan等人［7］設計了IBM差分隱私庫，用于Python編程語言中研究、實驗和開發(fā)差分隱私應用程序。2023年，Holohan［8］又提出了差分隱私隨機數(shù)生成器和種子算法，實現(xiàn)了在差分算法和結果中進行測試和錯誤修復，為差分隱私算法選擇提供了有利幫助。

近年來，國內(nèi)的差分隱私技術研究也取得了豐碩成果。2009年，袁進良［9］設計了統(tǒng)一的差分隱私聯(lián)邦學習平臺，擴展了傳統(tǒng)的隱私預算組合定理，實現(xiàn)了隨時間不斷更新的可用預算，解決了差分隱私的強隱私和聯(lián)邦系統(tǒng)的高吞吐難兼顧問題。2023年，張連福［10］提出了一種基于同態(tài)加密與差分隱私的隱私保護聯(lián)邦學習方案，利用多種防護措施實現(xiàn)了隱私防護范圍覆蓋聯(lián)邦學習全生命周期。同年，張旭［11］提出一種兼顧安全防御和隱私保護的分布式學習系統(tǒng)，該系統(tǒng)實現(xiàn)隱私保護的同時，提升了訓練模型的準確性。隨著差分隱私技術的不斷迭代發(fā)展，其在數(shù)據(jù)隱私保護領域得到越來越多的應用。

本文探討基于差分隱私的數(shù)據(jù)脫敏方法，對數(shù)據(jù)集進行清洗整理后，利用Laplace機制對敏感數(shù)據(jù)進行處理，利用神經(jīng)網(wǎng)絡模型分別對未脫敏數(shù)據(jù)和脫敏后的數(shù)據(jù)進行訓練和預測，對比原始數(shù)據(jù)、差分隱私脫敏數(shù)據(jù)及其他脫敏技術數(shù)據(jù)生成模型的預測效果，為神經(jīng)網(wǎng)絡預測模型的數(shù)據(jù)隱私保護問題提供解決方案。

本文詳細內(nèi)容請下載：

http://www.ihrv.cn/resource/share/2000006341

作者信息：

李思慧1，戴明超1，蔡伍洲2

（1.武警吉林省總隊，吉林長春130000；

2.武警部隊作戰(zhàn)勤務局，北京100000）

Magazine.Subscription.jpg

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權禁止轉載。

相關內(nèi)容