《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 業(yè)界動態(tài) > 我國科學家研制出高精度可擴展模擬矩陣計算芯片

我國科學家研制出高精度可擴展模擬矩陣計算芯片

突破模擬計算世紀難題
2025-10-14
來源:北京大學

10 月 14 日消息,據(jù)北京大學人工智能研究院官方微信公眾號消息,昨日,北京大學人工智能研究院孫仲研究員團隊及合作者在國際學術期刊《自然?電子學》(Nature Electronics)雜志發(fā)表了題為 Precise and scalable analogue matrix equation solving using resistive random-access memory chips 的論文,在新型計算架構上取得重大突破。

研究團隊成功研制出基于阻變存儲器的高精度、可擴展模擬矩陣計算芯片,首次實現(xiàn)了在精度上可與數(shù)字計算媲美的模擬計算系統(tǒng),將傳統(tǒng)模擬計算的精度提升了驚人的五個數(shù)量級。相關性能評估表明,該芯片在求解大規(guī)模 MIMO 信號檢測等關鍵科學問題時,計算吞吐量與能效較當前頂級數(shù)字處理器(GPU)提升百倍至千倍。這一成果標志著我國突破模擬計算世紀難題,在后摩爾時代計算范式變革中取得重大突破,為應對人工智能與 6G 通信等領域的算力挑戰(zhàn)開辟了全新路徑。

format,f_avif.avif.jpg

Nature Electronics 截圖

該研究由北京大學人工智能研究院通用人工智能芯片研究中心主導,并聯(lián)合集成電路學院研究團隊完成。孫仲課題組在項目攻關中發(fā)揮了核心作用,是此項成果的主要貢獻者。近年來,孫仲課題組聚焦 AI 算法底層通用矩陣計算加速研究,取得了一系列重要成果,相關論文發(fā)表在 Nature Electronics、Nature Communications、Science Advances 等期刊。

論文鏈接:https://www.nature.com/articles/s41928-025-01477-0

附北京大學人工智能研究院官方微信公眾號原文內容如下:

01、研究背景

矩陣方程求解是線性代數(shù)的核心內容,在信號處理、科學計算及神經(jīng)網(wǎng)絡二階訓練等領域具有廣泛應用(圖 1)。相較于常規(guī)矩陣乘法,矩陣求逆操作對輸入誤差的敏感性顯著更高,因此對計算精度提出了嚴格要求。然而,采用數(shù)字方法實現(xiàn)高精度矩陣求逆的計算開銷極大,其時間復雜度可達立方級。隨著大數(shù)據(jù)驅動類應用的興起,這種高復雜度計算給傳統(tǒng)數(shù)字計算機帶來了嚴峻挑戰(zhàn),尤其在傳統(tǒng)器件尺寸縮放逼近物理極限、傳統(tǒng)馮?諾依曼架構面臨“內存墻”瓶頸的雙重背景下,這一問題日益凸顯。

在這一算力瓶頸的背景下,模擬計算因其通過物理定律直接實現(xiàn)高并行、低延時、低功耗運算的先天優(yōu)勢,重新進入研究視野。然而,傳統(tǒng)模擬計算受限于低精度、難擴展等固有缺點,逐漸被高精度、可編程的數(shù)字計算所取代,成為存于教科書中的“老舊技術”。孫仲表示,“如何讓模擬計算兼具高精度與可擴展性,從而在現(xiàn)代計算任務中發(fā)揮其先天優(yōu)勢,一直是困擾全球科學界的‘世紀難題’?!?/p>

基于阻變存儲器陣列的模擬矩陣計算技術,被視為有望解決上述難題的路徑之一。特別是基于“陣列-運算放大器”閉環(huán)反饋原理設計的矩陣求逆電路,能夠實現(xiàn)矩陣求逆的一步式求解。盡管此類電路具備高速、高能效的計算潛力,但其固有的低精度特性仍是關鍵瓶頸,同時電路的硬連接結構也對其可擴展性構成挑戰(zhàn)。此外,在模擬矩陣乘法計算中,可通過比特切片、模擬補償?shù)炔呗蕴嵘嬎憔?,也可通過將分塊子矩陣映射至多個陣列的方式實現(xiàn)擴展性。然而,矩陣方程求解過程缺乏有效的分配律與分塊矩陣方法支撐,這使得模擬矩陣求逆的精度與可擴展性問題長期未能得到有效解決。

當前,部分基于數(shù)?;旌系难芯糠桨溉源嬖诿黠@局限:一方面,此類方案雖可借助浮點數(shù)字計算機實現(xiàn)高精度殘差計算,卻大幅削弱了模擬計算在降低復雜度方面的核心優(yōu)勢,同時還需頻繁執(zhí)行模數(shù)轉換操作;另一方面,現(xiàn)有模擬矩陣求逆電路的實驗驗證規(guī)模仍局限于小規(guī)模場景,且所用器件缺乏可靠的多級存儲特性。

format,f_avif.avif (2).jpg

圖 1. 模擬矩陣計算電路求解矩陣方程。

02、研究方法

面對上述挑戰(zhàn),研究團隊選擇了一條融合創(chuàng)新的道路,構建了一個基于阻變存儲器陣列的高精度、可拓展的全模擬矩陣方程求解器。通過新型信息器件、原創(chuàng)電路和經(jīng)典算法的協(xié)同設計,首次將模擬計算的精度提升至 24 位定點精度。

研究團隊基于迭代算法,結合了模擬低精度矩陣求逆和模擬高精度矩陣-向量乘法運算,開發(fā)了一種基于全模擬矩陣運算的高精度矩陣方程求解方案(圖 2)。其中,模擬低精度矩陣求逆和模擬高精度矩陣-向量乘法運算保持了模擬矩陣計算固有的低復雜度。特別需要注意的是,模擬矩陣求逆有助于減少迭代次數(shù),因為該方法可以在每次迭代中提供近似正確的結果。而高精度模擬 MVM 通過位切片方法,實現(xiàn)迭代細化過程。

此外,模擬低精度矩陣求逆和模擬高精度矩陣-向量乘法運算兩個電路的阻變存儲器陣列在 40nm CMOS 工藝平臺制造,可實現(xiàn) 3 比特電導態(tài)編程。

format,f_avif.avif (3).jpg

圖 2. 高精度全模擬矩陣計算求解矩陣方程

03、實驗結果

通過與塊矩陣算法相結合,我們在實驗上成功實現(xiàn)了 16×16 矩陣的 24 比特定點數(shù)精度求逆(圖 3)。具體而言,矩陣方程求解經(jīng)過 10 次迭代后,相對誤差可低至 10??量級,展現(xiàn)了該方案在計算精度上的顯著優(yōu)勢。

在計算性能方面,該技術表現(xiàn)出卓越的加速能力與能效。測試結果表明,在求解 32×32 矩陣求逆問題時,其算力已超越高端 GPU 的單核性能;當問題規(guī)模擴大至 128×128 時,計算吞吐量更達到頂級數(shù)字處理器的 1000 倍以上。同時,該方案在能效方面亦表現(xiàn)突出,在相同精度下能效比傳統(tǒng)數(shù)字處理器提升超 100 倍,為高能效計算中心提供了關鍵技術支撐。

在應用驗證層面,該方法被成功應用于大規(guī)模多輸入多輸出(MIMO)系統(tǒng)的信號檢測任務。研究團隊展示了基于迫零檢測的圖像恢復效果,在第二個迭代周期內,接收圖像即與原始圖像達到高度一致。進一步的誤碼率-信噪比分析顯示,僅需三次迭代,該系統(tǒng)在無線通信場景下的檢測性能即可媲美 32 位浮點精度數(shù)字處理器(圖 4),凸顯出其在實時信號處理中的潛力。

綜合基準測試結果證實,在保持相當計算精度的前提下,本模擬計算方法可實現(xiàn)領先的處理速度和能效(圖 5)。這些成果不僅驗證了全模擬矩陣求解路徑的可行性,也為應對未來智能計算與通信系統(tǒng)中的算力瓶頸提供了具有前景的技術平臺。

format,f_avif.avif (4).jpg

圖 3. 基于塊矩陣方法求解高精度、可拓展矩陣方程的實驗結果

format,f_avif.avif (5).jpg

圖 4. 高精度矩陣方程求解在大規(guī)模多輸入多輸出(MIMO)迫零檢測信號處理過程中的應用

format,f_avif.avif (6).jpg

圖 5. 模擬矩陣計算求解的性能比較(計算精度均為 FP32 精度)

04、成果意義與應用前景

“這項突破的意義遠不止于一篇頂刊論文,它的應用前景廣闊,可賦能多元計算場景,有望重塑算力格局?!睂O仲研究員表示,在未來的 6G 通信領域,它能讓基站實時、且低能耗方式處理海量天線信號,提升網(wǎng)絡容量和能效。對于正在高速發(fā)展中的人工智能技術,這項研究有望加速大模型訓練中計算密集的二階優(yōu)化算法,從而顯著提升訓練效率?!案匾氖?,低功耗特性也將強力支持復雜信號處理和 AI 訓推一體在終端設備上的直接運行,大大降低對云端的依賴,進而推動邊緣計算邁向新階段。”

“這項工作的最大價值在于,它用事實證明,模擬計算能以極高效率和精度解決現(xiàn)代科學和工程中的核心計算問題??梢哉f,我們?yōu)樗懔μ嵘剿鞒鲆粭l極具潛力的路徑,有望打破數(shù)字計算的長期壟斷,開啟一個算力無處不在且綠色高效的新時代?!睂O仲透露。


subscribe.jpg

本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。