7月1日消息,前不久,華為創(chuàng)始人任正非接受《人民日報》采訪時為中國芯片指路——芯片問題其實沒必要擔(dān)心,用疊加和集群等方法,計算結(jié)果上與最先進(jìn)水平是相當(dāng)?shù)摹?/p>
他坦言,我們單芯片還是落后美國一代,我們用數(shù)學(xué)補物理、非摩爾補摩爾,用群計算補單芯片,在結(jié)果上也能達(dá)到實用狀況。
任正非認(rèn)為,中國在中低端芯片上是可以有機會的,中國數(shù)十、上百家芯片公司都很努力。特別是化合物半導(dǎo)體機會更大。硅基芯片,我們用數(shù)學(xué)補物理、非摩爾補摩爾,利用集群計算的原理,可以達(dá)到滿足我們現(xiàn)在的需求。
那華為是怎么做的呢?
日前,華為云官微通過一段視頻展示了CloudMatrix 384超節(jié)點算力集群的威力——
384顆昇騰NPU(昇騰910C)+192顆鯤鵬CPU全對等互聯(lián),形成一臺“超級AI服務(wù)器”;
業(yè)界最大單卡推理吞吐量——2300Tokens/s;
業(yè)界最大集群算力——16萬卡,萬卡線性度高達(dá)95%;
云上確定性運維-40天長穩(wěn)訓(xùn)練、10分鐘快速恢復(fù)。
華為云表示,新一代昇騰AI云服務(wù),是最適合大模型應(yīng)用的算力服務(wù)。
此前,華為還發(fā)布了一一篇60頁的重磅論文,提出了他們的下一代AI數(shù)據(jù)中心架構(gòu)設(shè)計構(gòu)想——Huawei CloudMatrix,以及該構(gòu)想的第一代產(chǎn)品化的實現(xiàn)CloudMatrix384。
簡單來說,華為CloudMatrix并非簡單的“堆卡”,而是通過高帶寬全對等互聯(lián)(Peer-to-Peer)來設(shè)計,這也是CloudMatrix 384硬件架構(gòu)的一大創(chuàng)新。
傳統(tǒng)的AI集群中,CPU相當(dāng)于公司領(lǐng)導(dǎo)的角色,NPU等其它硬件更像是下屬,數(shù)據(jù)傳輸?shù)倪^程中就需要CPU審批和簽字,效率就會大打折扣。
但在CloudMatrix384中,CPU和NPU等硬件更像是一個扁平化管理的團(tuán)隊,它們之間的地位比較平等,直接通過UB網(wǎng)絡(luò)通信直接對話,效率自然就上來了。
另外,論文還介紹了基于CloudMatrix384進(jìn)行DeepSeek推理的最佳實踐方案——CloudMatrix-Infer。
從官方給出的案例來看,CloudMatrix384預(yù)填充吞吐量達(dá)6688 token/s/NPU,解碼階段1943 token/s/NPU;計算效率方面,預(yù)填充達(dá)4.45 token/s/TFLOPS,解碼階段1.29 token/s/TFLOPS,均超過NVIDIA H100/H800上實現(xiàn)的性能。