《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 设计应用 > 基于注意力信息关注与渐进梯度约束的二值化超分辨率网络
基于注意力信息关注与渐进梯度约束的二值化超分辨率网络
网络安全与数据治理
黄家锋 , 吴丽君
福州大学 物理与信息工程学院
摘要: 基于Transformer 的网络在图像超分辨率任务上表现优异 , 但高昂的内存和计算成本限制了它在实际中 的应用部署 。为此 , 基于 SwinIR 网络实现了一个二值化的轻量化超分辨网络 BiSR-AG。首先 , 利用现有的二值 方法基于 SwinIR 实现了一个二值化基线网络 。进一步 , 设计了一个基于注意力信息关注模块以充分匹配二值化 模型的信息容量 。此外 , 使用了渐进梯度更新区间约束训练策略来缓解注意力机制中存在部分参数不更新的问 题 。实验证明 , BiSR-AG 网络有效压缩了模型大小 , 并保持了较好的重建效果和感知质量。
中圖分類號(hào) : TP391 文獻(xiàn)標(biāo)志碼 : A DOI :10.19358/j.issn.2097-1788.2026.02.004
中文引用格式 : 黃家鋒 , 吳麗君. 基于注意力信息關(guān)注與漸進(jìn)梯度約束的二值化超分辨率網(wǎng)絡(luò) [J]. 網(wǎng)絡(luò)安全與數(shù)據(jù)治理 , 2026 ,
45(2) : 28 - 33.
英文引用格式 : Huang Jiafeng, Wu Lijun. A binarized super-resolution network based on attention information focusing and progressive gradi- ent constraints [J]. Cyber Security and Data Governance, 2026 , 45(2) : 28 - 33.
A binarized super-resolution network based on attention information focusing and progressive gradient constraints
Huang Jiafeng , Wu Lijun
College of Physics and Information Engineering, Fuzhou University
Abstract: Transformer-based networks have achieved excellent performance in image super-resolution tasks, but their high memory and com- putational costs hinder deployment. To address this issue, this paper proposes a binarized lightweight super-resolution network called BiSR- AG, built upon the SwinIR network. First, we implement a binarized baseline network based on existing binarization methods and SwinIR. Furthermore, we design an attention information-aware module to fully match the information capacity of the binarized model. Additionally, a progressive gradient update interval constraint training strategy is developed to alleviate the problem of partial parameter non-update in the at- tention mechanism. The experimental results demonstrate that the BiSR-AG network effectively compresses the model size while maintaining su- perior reconstruction performance and perceptual quality.
Key words : binarized network; super-resolution; computer vision; attention information

引言

圖像超分辨是計(jì)算機(jī)視覺和圖像處理中的一個(gè)重  要任務(wù) 。它旨在從低分辨率圖像中重建高分辨率圖像。 基于 Transformer 的圖像超分辨率網(wǎng)絡(luò)因其全局的特征  提取能力能夠重建恢復(fù)更真實(shí)的高分辨率圖像而受到  廣泛關(guān)注 。然而 , 其龐大的參數(shù)量導(dǎo)致推理過程需要  大量的內(nèi)存使用和浮點(diǎn)運(yùn)算 , 尤其是對(duì)于涉及高分辨率圖像的超分辨率  (Super-Resolution, SR) 任務(wù)而言。 這些特點(diǎn)阻礙了其在計(jì)算存儲(chǔ)資源有限的邊緣設(shè)備上  部署 。因此 , 對(duì)基于 Transformer 的圖像超分辨率網(wǎng)絡(luò)  模型進(jìn)行壓縮 , 以加快推理速度并降低計(jì)算成本 , 同  時(shí)保持模型性能十分必要 。二值化神經(jīng)網(wǎng)絡(luò)  (Binary  Neural Network, BNN) [1] 作為一種極致的模型壓縮技  術(shù) , 在模型輕量化方面潛力巨大 , 它能將網(wǎng)絡(luò)權(quán)重和  激活值從全精度量化至單比特 , 并使用同或門運(yùn)算和  位計(jì)數(shù)來替代復(fù)雜的浮點(diǎn)數(shù)乘和累加運(yùn)算 , 從而提供數(shù)十倍的模型壓縮率和顯著的計(jì)算加速 , 為超分辨率 重建模型在資源受限邊緣設(shè)備上的部署提供了極具潛 力的思路。

然而 , 現(xiàn)有二值化研究的應(yīng)用場(chǎng)景多集中于圖像  分類等上游視覺任務(wù) , 直接將現(xiàn)有的二值化方法[2 -4]   應(yīng)用于像素密集型超分任務(wù)會(huì)導(dǎo)致顯著的性能下降。 例如 , Xia 等人[5] 提出 BBCU, 使用殘差對(duì)齊方案來緩  解二值卷積輸出數(shù)值范圍不匹配問題 ; Li 等人[6] 通過  引入自適應(yīng)非對(duì)稱二值化方法來調(diào)整激活二值化的轉(zhuǎn)  換點(diǎn)以減小量化誤差 ; Xin 等人[7] 在 Rectified-BSR 模  型中使用多個(gè)不同閾值對(duì)激活值進(jìn)行二值化并融合結(jié)  果 , 以減輕單一閾值帶來的信息損失 ; Zhang 等人[8]   提出的 FRBC 方法不僅對(duì)權(quán)重進(jìn)行二值化 , 還對(duì)一階  二值化的殘差也進(jìn)行了二值化 , 二階二值化的結(jié)果作  為輔助分支補(bǔ)償主干二值化網(wǎng)絡(luò)的量化誤差 。上述二  值化超分研究工作主要聚焦于減小激活權(quán)重的量化損  失 , 卻忽略了圖像輸入信息的限制 。相比較于對(duì)信息  損失具有更大容忍度的圖像分類任務(wù) , 像素敏感的超  分任務(wù)對(duì)輸入信息分布要求更高。

網(wǎng)絡(luò)模型在訓(xùn)練時(shí)候的“ 輸入信息 ”是指輸入圖  像中包含的全部信息 Ix , 包括目標(biāo)信息 Id 和冗余信  息 。其中 , 目標(biāo)信息即輸入圖像中與任務(wù)相關(guān)的關(guān)鍵  信息 , 其余的與任務(wù)無關(guān)的信息則為冗余信息 。一個(gè)  網(wǎng)絡(luò)模型的訓(xùn)練目標(biāo)是從輸入中盡可能地提取相關(guān)信  息以滿足特定任務(wù)的需要 。通常 , 一個(gè)全精度網(wǎng)絡(luò)的  模型信息容量 Im 是可以充分表征這些相關(guān)信息的 , 且  又能容納冗余信息 , 如圖 1 (a) 所示 。神經(jīng)網(wǎng)絡(luò)訓(xùn)練  通過損失函數(shù)反向傳播進(jìn)行參數(shù)更新優(yōu)化 , 是盡量讓  模型信息容量 Im 包含目標(biāo)信息 Id 的過程 。但是將網(wǎng)  絡(luò)模型進(jìn)行二值化過后 , 二值化模型信息容量 Im ? 就  變得很小 , 導(dǎo)致難以匹配目標(biāo)信息 , 如圖 1 (b) 所  示 。如何讓模型快速地關(guān)注到與任務(wù)有關(guān)的相關(guān)信息 , 排除冗余信息對(duì)于像素敏感的超分任務(wù)顯得至關(guān)重要。 為此 , 本文設(shè)計(jì)了一個(gè)注意力信息關(guān)注模塊 , 通過將  注意力關(guān)注區(qū)域與輸入信息進(jìn)行掩碼操作來濾除冗余  信息 , 生成注意力關(guān)注輸入信息 , 引入先驗(yàn)知識(shí)來更  好地將 目 標(biāo) 信 息 Id 匹 配 到 二 值 化 模 型 信 息 容 量  Im ? 上。

同時(shí) , 由于注意力機(jī)制的特殊性 , 二值化注意力 層部分參數(shù)會(huì)出現(xiàn)梯度消失現(xiàn)象從而增加模型訓(xùn)練難 度 , 導(dǎo)致模型性能下降 , Bi-ViT[9] 引入了一個(gè)可學(xué)習(xí) 的縮放因子重新激活消失的梯度 , 但是也引入了額外 的浮點(diǎn)數(shù)計(jì)算 。為此 , 在不增加計(jì)算量的前提下 , 本文提出了一個(gè)簡(jiǎn)單有效的漸進(jìn)梯度更新區(qū)間約束策略來擴(kuò)大梯度更新區(qū)間,使得更多的參數(shù)參與更新優(yōu)化。

無標(biāo)題.png

圖 1  模型信息容量示意圖

綜上所述 , 本文提出了基于注意力信息關(guān)注和漸 進(jìn)梯度更新區(qū)間約束策略的二值化超分網(wǎng)絡(luò) BiSR-AG, 本文研究框架如下 :

(1) 基于全精度超分網(wǎng)絡(luò) SwinIR[10] 利用 XNOR- Net[11] 與 GSB[12] 二值化方法實(shí)現(xiàn)了一個(gè)二值基線網(wǎng)絡(luò)。

(2) 在基線網(wǎng)絡(luò)基礎(chǔ) , 針對(duì)二值化模型信息容量 較小難以匹配目標(biāo)信息 , 設(shè)計(jì)了一個(gè)注意力信息關(guān)注 模塊 IA, 獲取模型關(guān)注區(qū)域的目標(biāo)信息 , 抑制冗余特 征輸入 , 更好匹配二值化模型。

(3) 為解決二值化注意力層部分參數(shù)會(huì)出現(xiàn)不更 新問題 , 提出了漸進(jìn)梯度更新區(qū)間約束策略 GC。該策 略在訓(xùn)練初期設(shè)置較寬的直通估計(jì)器  (Straight-Through Estimator, STE) 梯度更新區(qū)間 , 確保注意力模塊參數(shù) 獲得充足的梯度更新空間 。隨著訓(xùn)練輪次的增加 , 逐 步縮小梯度更新區(qū)間至標(biāo)準(zhǔn)范圍 , 實(shí)現(xiàn)了平滑過渡 , 提升了注意力模塊參數(shù)的優(yōu)化效率 , 進(jìn)而提高模型 精度。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://www.ihrv.cn/resource/share/2000006986


作者信息:

黃家鋒 , 吳麗君

(福州大學(xué)   物理與信息工程學(xué)院 , 福建    福州   350108)

2.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。