華為,在黎明之前快訊
華為的芯片技術落后一代,英偉達和華為,華為的未來是什么。
黎明前最黑暗,勝利前最絕望,成功前最渺茫。
堂吉訶德舉著破矛沖向風車,切格瓦拉的摩托車駛向安第斯山脈,蓋茨比始終追逐著心中的綠光,他們的命運終章永遠只有兩種筆法:加冕為盜火者,或坍縮成黑洞。
華為素來不愛“造夢”,這是一家理性大于感性的公司。
所有關于聯接的答案,都能在方程組的深處,找到最簡潔的表達,那些被高斯噪聲吻過的頻譜,在香農的公式里凝結成精巧的信息,在華為眼里都是理性的計算。
然而,當華為被置于風暴中央之時,成功除了前赴后繼的突圍,故事中總帶有那么一些理想主義色彩。
上甘嶺
曾經的黑夜對于華為來說,并不算短。
2019.5.16,19萬華為人因“實體清單”的消息集體落入慌亂與不安的情緒。
越是在行業待得足夠久的人,越知曉其中的分量,高通芯片、英特爾/AMD芯片、Windows和安卓操作系統等,這是大眾顯而易見看到的部分,還有更重要但外界感知不到的部分,例如數據庫、ERP軟件、各種生產工具等軟件等,華為的業務面臨全面停擺的風險。
更重要的是,還有一個在當時并不明顯,但后來被驗證的預言。“他們不只想遏制華為的現在,更想摧毀華為的未來。”
華為的未來是什么?
2018年,華為首次對外發布了AI戰略與全棧全場景AI解決方案,包括全球首個覆蓋全場景人工智能的華為昇騰系列芯片以及基于華為昇騰系列芯片的產品和云服務。
在所有預設前提改變的情況下,華為AI戰略被打亂了步伐。
“再窮也要對未來投資”,華為比任何人都更明白這一點,如果趕不上AI的時代浪潮,華為可能在十年、二十年后就變成一家“泯然眾人矣”的公司。
現在與未來交織成兩條主線。華為發起的“三丫坡會戰”,成功保障了自身的生產運營,實現了關鍵產品和技術的自主研發,涵蓋硬件、操作系統、數據庫、中間件、應用軟件等領域。
但是,關于未來的問題,就像“達摩克利斯之劍”懸于頭頂。
美國對AI的封鎖層層加碼,華為連基本的AI算力供應都難以實現,又該如何與美國的AI企業競爭?
外界無從知曉,華為扛著多大的壓力,但它沒有給自己彷徨的時間。
不久之后,華為內部就成立了一支特殊的“作戰部隊”,結合了包括云、計算、芯片等業務線的精兵強將,這支隊伍領到的“軍令”,就是攻克AI算力的“上甘嶺”。
那條坑道
彼時,憑借GPU和CUDA生態系統的堅固壁壘,英偉達可謂“獨孤求敗”,打遍天下無敵手。
英偉達和華為,恰如一個在上甘嶺的南坡,洋槍大炮重兵布陣,另一個卻在北坡,小米加步槍艱難突進。
那條打通南北坡,決勝千里的“坑道”在哪里?
答案指向超節點。單芯片性能落后,那就靠系統性能力來彌補,甚至超越。一場決定未來10年甚至20年成敗的“冒險”,在華為內部悄然卻激烈的啟動了。
2022年下半年,華為正式啟動了超節點的研發,當時誰也沒想到AI的發展會在第二年就迎來了第一個爆發點——ChatGPT發布,并在全球掀起了大模型浪潮。
華為早有預感,作為基礎設施提供商,華為的定位就是為各種應用“架橋修路”,從5G到AI算力都是如此,基于這種戰略導向,華為云前瞻性地判斷出了AI的大發展,并決定要提前投入。
第一個核心問題很快到來,超節點立項的時候,ChatGPT還沒發布,大模型還沒顯露趨勢,更沒人預料到DeepSeek的爆火,從一個時代進入到另一個時代,就用了不到2年的時間。
超節點項目要面對的第一個選擇:超節點是建64個芯片,還是384個芯片?
“在當時的環境下,64卡是夠用的,但是我們要布局未來,而且以昇騰AI云服務提供算力服務,可以把超節點算力分開或者合并,做大了沒問題,做小了可能就會很被動。”華為一位項目組專家回憶道。
彼時誰也不知道AI的市場什么時候會來,資源有限,當時的昇騰也還不是戰略重心。那么,是否要投入一個如此耗費精力,結果又不十分確定的大項目,是不是明智之舉?
猶豫的時間并不長,不久之后的2023年初,華為就決策要堅定投入384超節點。
超節點項目涉及到海思、計算和云等多個業務團隊。華為云數據中心一位負責人表示,“公司面臨困難的時候,大家都想到前線去參戰,到芯片的團隊作貢獻,公司還特別發了個文,號召大家做好自己的本職工作。而超節點項目讓我們也成為了參戰部隊,大家內心非常自豪和興奮。”
在芯片能力落后于英偉達一代的情況下,華為的策略是用“非摩爾定律補摩爾定律”,單芯片性能不足,就上升到系統層面,因為大模型的訓練推理本來就需要算力集群,才能發揮出更高的效果。
時間緊迫,任務艱巨,戰略清晰。然而實踐,卻依然艱難。在落后的情況下,想要追平甚至超越英偉達,意味著需要付出更大的代價。
當華為選擇了384卡之后,那就只能采用光模塊來通信的技術路線,而不是英偉達NVL72選擇的全電通信,這是一個巨大的技術挑戰。
業內有消息指出,英偉達此前也考慮過光模塊方案,但由于其成本高昂、功耗大且由于所需的光學收發器和兩級網絡導致不可靠,最終被放棄。于是,英偉達NVL72超節點采用全銅線架構,一經部署便保持固定狀態,相對穩定。缺點是:只能部署2米以內,否則速度會大幅衰減,因此可聯接芯片數量有限。而光模塊則有高帶寬和高速率的優勢,損耗低,適合長距離傳輸,因而可聯接更多芯片,部署靈活。
但是光模塊故障率高,這就需要數據中心有一套高效的故障定位和修復系統,保證超節點長穩運行,不影響客戶業務。
不管是千卡集群,還是萬卡集群,還是十萬卡的集群,華為CloudMatrix 384超節點可實現1分鐘故障感知、3分鐘故障定界、10分鐘故障恢復。
作為挑戰者,想實現領先者都實現不了的方案,本是個“妄想”,但是,偏執卻常是成功的必要條件。
既然找到了384超節點這條“坑道”,必須一掘到底。
勝利,但沒有終點
2025年4月,CloudMatrix 384超節點一經發布,便引起了極大關注,海外的關注度比國內還要高得多。究其原因,就像華為云副總裁黃瑾在最近的華為云AI峰會所說:“CloudMatrix 384超節點具備MoE親和、以網強算、以存強算、長穩可靠、朝推夜訓、即開即用六大領先技術優勢,這項技術創新跳出單點技術限制走向系統性、工程性的創新算力架構直面通信效率瓶頸、內存墻制約、可靠性短板三大技術挑戰。”可以說,華為云以系統架構創新重新定義新一代AI基礎設施。
起初很多人不相信華為能實現這樣的突破。海外知名分析機構SemiAnalysis,以“Huawei AI CloudMatrix 384–China’s Answer to Nvidia GB200 NVL72”為題,猜測和分析了CloudMatrix 384超節點的種種細節。
SemiAnalysis得出的結論是,華為的芯片技術落后一代,但其自主研發的云端超級算力解決方案CloudMatrix 384卻可領先于英偉達和AMD當前市售產品一代,直接對標英偉達GB200 NVL72系統,在多項關鍵指標上展現出超越英偉達機架級解決方案的技術優勢。
這是工程創新的“奇跡”。可能瘋狂就是反復做著同樣的事情,卻期待不同的結果。
“早期光模塊根本不可用”,上述華為云數據中心負責人還記得,光模塊試驗時的沮喪,“想用非摩爾去解決摩爾定律,結果非摩爾這邊的問題反而更大,我們用了最土的辦法,每一個光模塊的端面全部拍照,再逐個分析,解決了數不清的問題,才實現了較好的穩定性。”
當時,承接超節點落地的華為云數據中心面臨著空前壓力。
傳統的分布式系統本質上是一個松耦合系統,服務器之間一般用25Gbps或100Gbps以太網帶寬就可以滿足絕大多數應用的需求。而AI時代的應用負載與傳統業務有很大不同,當前服務器集群的以太網互聯帶寬已經越來越難滿足前面提到的AI時代的訓練、推理等場景的需求。
CloudMatrix 384實現了CPU、NPU、GPU、內存等多樣資源的跨服務器統一池化,用“對等架構”替換掉傳統的“主從架構”,讓多元算力可以直接通信,不需要通過CPU,讓系統能夠靈活配置跨服務器的多種資源,形成一個大規模的緊耦合的多元算力池化架構,這是AI原生云基礎設施最重要的能力。
DeepSeek成為CloudMatrix 384顯露崢嶸的一個縮影。DeepSeek使用了大規模專家并行(Expert Parallelism,大EP并行)的MoE模型架構,特點是大模型設置了多個專家來處理問題,1個卡(算力芯片)對應著1個專家,專家越多,效率越高,傳統英偉達服務器都是8卡,CloudMatrix 384可以對應384個專家,極大提高專家數量,并且優化協同效率。
硅基流動CEO袁進輝記得,2025年除夕,DeepSeek的爆火快速點燃市場,硅基流動和華為云當即決定要在CloudMatrix 384上跑DeepSeek。
若采用單機部署方案,最終的性能遠不如DeepSeek官方公布的部署方案,且至少有數倍成本差距。更具挑戰的是,雖然DeepSeek公開了大EP并行方案,但技術難度較大,業內還沒有其他團隊快速復現這一部署方法。
效率和精度是核心問題,每秒輸出的token可能卡在計算或者通信上,模型輸出的結果可能和官方不一致,經過雙方團隊的數月攻關,DeepSeek在CloudMatrix 384終于實現了較好的效果,可比肩H100部署性能。
“首先,他們無視你,而后嘲笑你,接著攻擊你,再后來就是你的勝利之日。”
無人知曉華為人如何度過那些漫長黑夜,想來那必定是充滿了焦慮、懷疑和不甘。最終華為熬過了一道關卡,CloudMatrix 384超節點不是終點,華為人來不及慶祝,收拾心情整裝再出發,奔赴下一個戰場。
跪著的都輸了,站著才可能贏。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。