10 月 14 日消息,據(jù)北京大學(xué)人工智能研究院官方微信公眾號(hào)消息,昨日,北京大學(xué)人工智能研究院孫仲研究員團(tuán)隊(duì)及合作者在國(guó)際學(xué)術(shù)期刊《自然?電子學(xué)》(Nature Electronics)雜志發(fā)表了題為 Precise and scalable analogue matrix equation solving using resistive random-access memory chips 的論文,在新型計(jì)算架構(gòu)上取得重大突破。
研究團(tuán)隊(duì)成功研制出基于阻變存儲(chǔ)器的高精度、可擴(kuò)展模擬矩陣計(jì)算芯片,首次實(shí)現(xiàn)了在精度上可與數(shù)字計(jì)算媲美的模擬計(jì)算系統(tǒng),將傳統(tǒng)模擬計(jì)算的精度提升了驚人的五個(gè)數(shù)量級(jí)。相關(guān)性能評(píng)估表明,該芯片在求解大規(guī)模 MIMO 信號(hào)檢測(cè)等關(guān)鍵科學(xué)問題時(shí),計(jì)算吞吐量與能效較當(dāng)前頂級(jí)數(shù)字處理器(GPU)提升百倍至千倍。這一成果標(biāo)志著我國(guó)突破模擬計(jì)算世紀(jì)難題,在后摩爾時(shí)代計(jì)算范式變革中取得重大突破,為應(yīng)對(duì)人工智能與 6G 通信等領(lǐng)域的算力挑戰(zhàn)開辟了全新路徑。

Nature Electronics 截圖
該研究由北京大學(xué)人工智能研究院通用人工智能芯片研究中心主導(dǎo),并聯(lián)合集成電路學(xué)院研究團(tuán)隊(duì)完成。孫仲課題組在項(xiàng)目攻關(guān)中發(fā)揮了核心作用,是此項(xiàng)成果的主要貢獻(xiàn)者。近年來(lái),孫仲課題組聚焦 AI 算法底層通用矩陣計(jì)算加速研究,取得了一系列重要成果,相關(guān)論文發(fā)表在 Nature Electronics、Nature Communications、Science Advances 等期刊。
論文鏈接:https://www.nature.com/articles/s41928-025-01477-0
附北京大學(xué)人工智能研究院官方微信公眾號(hào)原文內(nèi)容如下:
01、研究背景
矩陣方程求解是線性代數(shù)的核心內(nèi)容,在信號(hào)處理、科學(xué)計(jì)算及神經(jīng)網(wǎng)絡(luò)二階訓(xùn)練等領(lǐng)域具有廣泛應(yīng)用(圖 1)。相較于常規(guī)矩陣乘法,矩陣求逆操作對(duì)輸入誤差的敏感性顯著更高,因此對(duì)計(jì)算精度提出了嚴(yán)格要求。然而,采用數(shù)字方法實(shí)現(xiàn)高精度矩陣求逆的計(jì)算開銷極大,其時(shí)間復(fù)雜度可達(dá)立方級(jí)。隨著大數(shù)據(jù)驅(qū)動(dòng)類應(yīng)用的興起,這種高復(fù)雜度計(jì)算給傳統(tǒng)數(shù)字計(jì)算機(jī)帶來(lái)了嚴(yán)峻挑戰(zhàn),尤其在傳統(tǒng)器件尺寸縮放逼近物理極限、傳統(tǒng)馮?諾依曼架構(gòu)面臨“內(nèi)存墻”瓶頸的雙重背景下,這一問題日益凸顯。
在這一算力瓶頸的背景下,模擬計(jì)算因其通過(guò)物理定律直接實(shí)現(xiàn)高并行、低延時(shí)、低功耗運(yùn)算的先天優(yōu)勢(shì),重新進(jìn)入研究視野。然而,傳統(tǒng)模擬計(jì)算受限于低精度、難擴(kuò)展等固有缺點(diǎn),逐漸被高精度、可編程的數(shù)字計(jì)算所取代,成為存于教科書中的“老舊技術(shù)”。孫仲表示,“如何讓模擬計(jì)算兼具高精度與可擴(kuò)展性,從而在現(xiàn)代計(jì)算任務(wù)中發(fā)揮其先天優(yōu)勢(shì),一直是困擾全球科學(xué)界的‘世紀(jì)難題’?!?/p>
基于阻變存儲(chǔ)器陣列的模擬矩陣計(jì)算技術(shù),被視為有望解決上述難題的路徑之一。特別是基于“陣列-運(yùn)算放大器”閉環(huán)反饋原理設(shè)計(jì)的矩陣求逆電路,能夠?qū)崿F(xiàn)矩陣求逆的一步式求解。盡管此類電路具備高速、高能效的計(jì)算潛力,但其固有的低精度特性仍是關(guān)鍵瓶頸,同時(shí)電路的硬連接結(jié)構(gòu)也對(duì)其可擴(kuò)展性構(gòu)成挑戰(zhàn)。此外,在模擬矩陣乘法計(jì)算中,可通過(guò)比特切片、模擬補(bǔ)償?shù)炔呗蕴嵘?jì)算精度,也可通過(guò)將分塊子矩陣映射至多個(gè)陣列的方式實(shí)現(xiàn)擴(kuò)展性。然而,矩陣方程求解過(guò)程缺乏有效的分配律與分塊矩陣方法支撐,這使得模擬矩陣求逆的精度與可擴(kuò)展性問題長(zhǎng)期未能得到有效解決。
當(dāng)前,部分基于數(shù)?;旌系难芯糠桨溉源嬖诿黠@局限:一方面,此類方案雖可借助浮點(diǎn)數(shù)字計(jì)算機(jī)實(shí)現(xiàn)高精度殘差計(jì)算,卻大幅削弱了模擬計(jì)算在降低復(fù)雜度方面的核心優(yōu)勢(shì),同時(shí)還需頻繁執(zhí)行模數(shù)轉(zhuǎn)換操作;另一方面,現(xiàn)有模擬矩陣求逆電路的實(shí)驗(yàn)驗(yàn)證規(guī)模仍局限于小規(guī)模場(chǎng)景,且所用器件缺乏可靠的多級(jí)存儲(chǔ)特性。

圖 1. 模擬矩陣計(jì)算電路求解矩陣方程。
02、研究方法
面對(duì)上述挑戰(zhàn),研究團(tuán)隊(duì)選擇了一條融合創(chuàng)新的道路,構(gòu)建了一個(gè)基于阻變存儲(chǔ)器陣列的高精度、可拓展的全模擬矩陣方程求解器。通過(guò)新型信息器件、原創(chuàng)電路和經(jīng)典算法的協(xié)同設(shè)計(jì),首次將模擬計(jì)算的精度提升至 24 位定點(diǎn)精度。
研究團(tuán)隊(duì)基于迭代算法,結(jié)合了模擬低精度矩陣求逆和模擬高精度矩陣-向量乘法運(yùn)算,開發(fā)了一種基于全模擬矩陣運(yùn)算的高精度矩陣方程求解方案(圖 2)。其中,模擬低精度矩陣求逆和模擬高精度矩陣-向量乘法運(yùn)算保持了模擬矩陣計(jì)算固有的低復(fù)雜度。特別需要注意的是,模擬矩陣求逆有助于減少迭代次數(shù),因?yàn)樵摲椒梢栽诿看蔚刑峁┙普_的結(jié)果。而高精度模擬 MVM 通過(guò)位切片方法,實(shí)現(xiàn)迭代細(xì)化過(guò)程。
此外,模擬低精度矩陣求逆和模擬高精度矩陣-向量乘法運(yùn)算兩個(gè)電路的阻變存儲(chǔ)器陣列在 40nm CMOS 工藝平臺(tái)制造,可實(shí)現(xiàn) 3 比特電導(dǎo)態(tài)編程。

圖 2. 高精度全模擬矩陣計(jì)算求解矩陣方程
03、實(shí)驗(yàn)結(jié)果
通過(guò)與塊矩陣算法相結(jié)合,我們?cè)趯?shí)驗(yàn)上成功實(shí)現(xiàn)了 16×16 矩陣的 24 比特定點(diǎn)數(shù)精度求逆(圖 3)。具體而言,矩陣方程求解經(jīng)過(guò) 10 次迭代后,相對(duì)誤差可低至 10??量級(jí),展現(xiàn)了該方案在計(jì)算精度上的顯著優(yōu)勢(shì)。
在計(jì)算性能方面,該技術(shù)表現(xiàn)出卓越的加速能力與能效。測(cè)試結(jié)果表明,在求解 32×32 矩陣求逆問題時(shí),其算力已超越高端 GPU 的單核性能;當(dāng)問題規(guī)模擴(kuò)大至 128×128 時(shí),計(jì)算吞吐量更達(dá)到頂級(jí)數(shù)字處理器的 1000 倍以上。同時(shí),該方案在能效方面亦表現(xiàn)突出,在相同精度下能效比傳統(tǒng)數(shù)字處理器提升超 100 倍,為高能效計(jì)算中心提供了關(guān)鍵技術(shù)支撐。
在應(yīng)用驗(yàn)證層面,該方法被成功應(yīng)用于大規(guī)模多輸入多輸出(MIMO)系統(tǒng)的信號(hào)檢測(cè)任務(wù)。研究團(tuán)隊(duì)展示了基于迫零檢測(cè)的圖像恢復(fù)效果,在第二個(gè)迭代周期內(nèi),接收?qǐng)D像即與原始圖像達(dá)到高度一致。進(jìn)一步的誤碼率-信噪比分析顯示,僅需三次迭代,該系統(tǒng)在無(wú)線通信場(chǎng)景下的檢測(cè)性能即可媲美 32 位浮點(diǎn)精度數(shù)字處理器(圖 4),凸顯出其在實(shí)時(shí)信號(hào)處理中的潛力。
綜合基準(zhǔn)測(cè)試結(jié)果證實(shí),在保持相當(dāng)計(jì)算精度的前提下,本模擬計(jì)算方法可實(shí)現(xiàn)領(lǐng)先的處理速度和能效(圖 5)。這些成果不僅驗(yàn)證了全模擬矩陣求解路徑的可行性,也為應(yīng)對(duì)未來(lái)智能計(jì)算與通信系統(tǒng)中的算力瓶頸提供了具有前景的技術(shù)平臺(tái)。

圖 3. 基于塊矩陣方法求解高精度、可拓展矩陣方程的實(shí)驗(yàn)結(jié)果

圖 4. 高精度矩陣方程求解在大規(guī)模多輸入多輸出(MIMO)迫零檢測(cè)信號(hào)處理過(guò)程中的應(yīng)用

圖 5. 模擬矩陣計(jì)算求解的性能比較(計(jì)算精度均為 FP32 精度)
04、成果意義與應(yīng)用前景
“這項(xiàng)突破的意義遠(yuǎn)不止于一篇頂刊論文,它的應(yīng)用前景廣闊,可賦能多元計(jì)算場(chǎng)景,有望重塑算力格局。”孫仲研究員表示,在未來(lái)的 6G 通信領(lǐng)域,它能讓基站實(shí)時(shí)、且低能耗方式處理海量天線信號(hào),提升網(wǎng)絡(luò)容量和能效。對(duì)于正在高速發(fā)展中的人工智能技術(shù),這項(xiàng)研究有望加速大模型訓(xùn)練中計(jì)算密集的二階優(yōu)化算法,從而顯著提升訓(xùn)練效率?!案匾氖牵凸奶匦砸矊?qiáng)力支持復(fù)雜信號(hào)處理和 AI 訓(xùn)推一體在終端設(shè)備上的直接運(yùn)行,大大降低對(duì)云端的依賴,進(jìn)而推動(dòng)邊緣計(jì)算邁向新階段?!?/p>
“這項(xiàng)工作的最大價(jià)值在于,它用事實(shí)證明,模擬計(jì)算能以極高效率和精度解決現(xiàn)代科學(xué)和工程中的核心計(jì)算問題??梢哉f(shuō),我們?yōu)樗懔μ嵘剿鞒鲆粭l極具潛力的路徑,有望打破數(shù)字計(jì)算的長(zhǎng)期壟斷,開啟一個(gè)算力無(wú)處不在且綠色高效的新時(shí)代?!睂O仲透露。


