123,123

基于注意力信息关注与渐进梯度约束的二值化超分辨率网络

网络安全与数据治理

黄家锋 , 吴丽君

福州大学物理与信息工程学院

摘要： 基于Transformer 的网络在图像超分辨率任务上表现优异 , 但高昂的内存和计算成本限制了它在实际中的应用部署。为此 , 基于 SwinIR 网络实现了一个二值化的轻量化超分辨网络 BiSR-AG。首先 , 利用现有的二值方法基于 SwinIR 实现了一个二值化基线网络。进一步 , 设计了一个基于注意力信息关注模块以充分匹配二值化模型的信息容量。此外 , 使用了渐进梯度更新区间约束训练策略来缓解注意力机制中存在部分参数不更新的问题。实验证明 , BiSR-AG 网络有效压缩了模型大小 , 并保持了较好的重建效果和感知质量。

關(guān)鍵詞： 二值化网络超分辨率计算机视觉注意力信息

中圖分類號(hào) : TP391 文獻(xiàn)標(biāo)志碼 : A DOI :10.19358/j.issn.2097-1788.2026.02.004
中文引用格式 : 黃家鋒 , 吳麗君. 基于注意力信息關(guān)注與漸進(jìn)梯度約束的二值化超分辨率網(wǎng)絡(luò) [J]. 網(wǎng)絡(luò)安全與數(shù)據(jù)治理 , 2026 ,
45(2) : 28 - 33.
英文引用格式 : Huang Jiafeng, Wu Lijun. A binarized super-resolution network based on attention information focusing and progressive gradi- ent constraints [J]. Cyber Security and Data Governance, 2026 , 45(2) : 28 - 33.

A binarized super-resolution network based on attention information focusing and progressive gradient constraints

Huang Jiafeng , Wu Lijun

College of Physics and Information Engineering, Fuzhou University

Abstract： Transformer-based networks have achieved excellent performance in image super-resolution tasks, but their high memory and com- putational costs hinder deployment. To address this issue, this paper proposes a binarized lightweight super-resolution network called BiSR- AG, built upon the SwinIR network. First, we implement a binarized baseline network based on existing binarization methods and SwinIR. Furthermore, we design an attention information-aware module to fully match the information capacity of the binarized model. Additionally, a progressive gradient update interval constraint training strategy is developed to alleviate the problem of partial parameter non-update in the at- tention mechanism. The experimental results demonstrate that the BiSR-AG network effectively compresses the model size while maintaining su- perior reconstruction performance and perceptual quality.

Key words : binarized network; super-resolution; computer vision; attention information

引言

圖像超分辨是計(jì)算機(jī)視覺(jué)和圖像處理中的一個(gè)重要任務(wù) 。它旨在從低分辨率圖像中重建高分辨率圖像。基于 Transformer 的圖像超分辨率網(wǎng)絡(luò)因其全局的特征提取能力能夠重建恢復(fù)更真實(shí)的高分辨率圖像而受到廣泛關(guān)注。然而 , 其龐大的參數(shù)量導(dǎo)致推理過(guò)程需要大量的內(nèi)存使用和浮點(diǎn)運(yùn)算 , 尤其是對(duì)于涉及高分辨率圖像的超分辨率 (Super-Resolution, SR) 任務(wù)而言。這些特點(diǎn)阻礙了其在計(jì)算存儲(chǔ)資源有限的邊緣設(shè)備上部署。因此 , 對(duì)基于 Transformer 的圖像超分辨率網(wǎng)絡(luò) 模型進(jìn)行壓縮 , 以加快推理速度并降低計(jì)算成本 , 同時(shí)保持模型性能十分必要。二值化神經(jīng)網(wǎng)絡(luò) (Binary Neural Network, BNN) [1] 作為一種極致的模型壓縮技術(shù) , 在模型輕量化方面潛力巨大 , 它能將網(wǎng)絡(luò)權(quán)重和激活值從全精度量化至單比特 , 并使用同或門(mén)運(yùn)算和位計(jì)數(shù)來(lái)替代復(fù)雜的浮點(diǎn)數(shù)乘和累加運(yùn)算 , 從而提供數(shù)十倍的模型壓縮率和顯著的計(jì)算加速 , 為超分辨率重建模型在資源受限邊緣設(shè)備上的部署提供了極具潛力的思路。

然而 , 現(xiàn)有二值化研究的應(yīng)用場(chǎng)景多集中于圖像分類等上游視覺(jué)任務(wù) , 直接將現(xiàn)有的二值化方法[2 -4] 應(yīng)用于像素密集型超分任務(wù)會(huì)導(dǎo)致顯著的性能下降。例如 , Xia 等人[5] 提出 BBCU, 使用殘差對(duì)齊方案來(lái)緩解二值卷積輸出數(shù)值范圍不匹配問(wèn)題 ; Li 等人[6] 通過(guò) 引入自適應(yīng)非對(duì)稱二值化方法來(lái)調(diào)整激活二值化的轉(zhuǎn) 換點(diǎn)以減小量化誤差 ; Xin 等人[7] 在 Rectified-BSR 模型中使用多個(gè)不同閾值對(duì)激活值進(jìn)行二值化并融合結(jié) 果 , 以減輕單一閾值帶來(lái)的信息損失 ; Zhang 等人[8] 提出的 FRBC 方法不僅對(duì)權(quán)重進(jìn)行二值化 , 還對(duì)一階二值化的殘差也進(jìn)行了二值化 , 二階二值化的結(jié)果作為輔助分支補(bǔ)償主干二值化網(wǎng)絡(luò)的量化誤差。上述二值化超分研究工作主要聚焦于減小激活權(quán)重的量化損失 , 卻忽略了圖像輸入信息的限制。相比較于對(duì)信息損失具有更大容忍度的圖像分類任務(wù) , 像素敏感的超分任務(wù)對(duì)輸入信息分布要求更高。

網(wǎng)絡(luò)模型在訓(xùn)練時(shí)候的“ 輸入信息 ”是指輸入圖像中包含的全部信息 Ix , 包括目標(biāo)信息 Id 和冗余信息。其中 , 目標(biāo)信息即輸入圖像中與任務(wù)相關(guān)的關(guān)鍵信息 , 其余的與任務(wù)無(wú)關(guān)的信息則為冗余信息。一個(gè) 網(wǎng)絡(luò)模型的訓(xùn)練目標(biāo)是從輸入中盡可能地提取相關(guān)信息以滿足特定任務(wù)的需要。通常 , 一個(gè)全精度網(wǎng)絡(luò)的模型信息容量 Im 是可以充分表征這些相關(guān)信息的 , 且又能容納冗余信息 , 如圖 1 (a) 所示。神經(jīng)網(wǎng)絡(luò)訓(xùn)練通過(guò)損失函數(shù)反向傳播進(jìn)行參數(shù)更新優(yōu)化 , 是盡量讓模型信息容量 Im 包含目標(biāo)信息 Id 的過(guò)程。但是將網(wǎng) 絡(luò)模型進(jìn)行二值化過(guò)后 , 二值化模型信息容量 Im ? 就變得很小 , 導(dǎo)致難以匹配目標(biāo)信息 , 如圖 1 (b) 所示。如何讓模型快速地關(guān)注到與任務(wù)有關(guān)的相關(guān)信息 , 排除冗余信息對(duì)于像素敏感的超分任務(wù)顯得至關(guān)重要。為此 , 本文設(shè)計(jì)了一個(gè)注意力信息關(guān)注模塊 , 通過(guò)將注意力關(guān)注區(qū)域與輸入信息進(jìn)行掩碼操作來(lái)濾除冗余信息 , 生成注意力關(guān)注輸入信息 , 引入先驗(yàn)知識(shí)來(lái)更好地將目標(biāo) 信息 Id 匹配到二值化模型信息容量 Im ? 上。

同時(shí) , 由于注意力機(jī)制的特殊性 , 二值化注意力層部分參數(shù)會(huì)出現(xiàn)梯度消失現(xiàn)象從而增加模型訓(xùn)練難度 , 導(dǎo)致模型性能下降 , Bi-ViT[9] 引入了一個(gè)可學(xué)習(xí) 的縮放因子重新激活消失的梯度 , 但是也引入了額外的浮點(diǎn)數(shù)計(jì)算。為此 , 在不增加計(jì)算量的前提下 , 本文提出了一個(gè)簡(jiǎn)單有效的漸進(jìn)梯度更新區(qū)間約束策略來(lái)擴(kuò)大梯度更新區(qū)間,使得更多的參數(shù)參與更新優(yōu)化。

無(wú)標(biāo)題.png

圖 1 模型信息容量示意圖

綜上所述 , 本文提出了基于注意力信息關(guān)注和漸進(jìn)梯度更新區(qū)間約束策略的二值化超分網(wǎng)絡(luò) BiSR-AG, 本文研究框架如下 :

(1) 基于全精度超分網(wǎng)絡(luò) SwinIR[10] 利用 XNOR- Net[11] 與 GSB[12] 二值化方法實(shí)現(xiàn)了一個(gè)二值基線網(wǎng)絡(luò)。

(2) 在基線網(wǎng)絡(luò)基礎(chǔ) , 針對(duì)二值化模型信息容量較小難以匹配目標(biāo)信息 , 設(shè)計(jì)了一個(gè)注意力信息關(guān)注模塊 IA, 獲取模型關(guān)注區(qū)域的目標(biāo)信息 , 抑制冗余特征輸入 , 更好匹配二值化模型。

(3) 為解決二值化注意力層部分參數(shù)會(huì)出現(xiàn)不更新問(wèn)題 , 提出了漸進(jìn)梯度更新區(qū)間約束策略 GC。該策略在訓(xùn)練初期設(shè)置較寬的直通估計(jì)器 (Straight-Through Estimator, STE) 梯度更新區(qū)間 , 確保注意力模塊參數(shù) 獲得充足的梯度更新空間。隨著訓(xùn)練輪次的增加 , 逐步縮小梯度更新區(qū)間至標(biāo)準(zhǔn)范圍 , 實(shí)現(xiàn)了平滑過(guò)渡 , 提升了注意力模塊參數(shù)的優(yōu)化效率 , 進(jìn)而提高模型精度。

本文詳細(xì)內(nèi)容請(qǐng)下載：

http://www.ihrv.cn/resource/share/2000006986

作者信息：

黃家鋒 , 吳麗君

(福州大學(xué) 物理與信息工程學(xué)院 , 福建福州 350108)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容