萬億參數(shù)Kimi K2開源 月之暗面研發(fā)工程師親述幕后故事快訊
另一位月之暗面研發(fā)人員、知乎答主Justin Wong談到Kimi K2為何會選擇開源時稱,的Kimi研發(fā)人員隨后在知乎展開,月之暗面開源MoBA框架研發(fā)人員鹿恩哲、蘇劍林分別在知乎上講述了研發(fā)思路。
【TechWeb】7月14日消息,日前,國內(nèi)大模型獨(dú)角獸月之暗面正式發(fā)布并開源了其最新一代MoE架構(gòu)基礎(chǔ)模型Kimi K2,總參數(shù)量達(dá)到1萬億(1T) ,引發(fā)圈內(nèi)熱議。Kimi內(nèi)部則將K2研發(fā)群戲稱為“接生群”,多位參與“接生”的Kimi研發(fā)人員隨后在知乎展開“親自答”,從多個角度深入講述了其背后研發(fā)歷程。
作為月之暗面 Infra側(cè)推理方面研發(fā)人員,知乎答主劉少偉談及了K2模型結(jié)構(gòu)的設(shè)計宗旨。他稱K2模型是在DeepSeek V3結(jié)構(gòu)的框架之下,如何選擇合適的參數(shù),使得模型在訓(xùn)練、推理成本與v3相當(dāng)?shù)那疤嵯拢@得明顯更低的loss。“綜合以上四個相比v3的改動,我們能夠得到一個在相同EP數(shù)量下,雖然總參數(shù)增大到1.5倍,但除去通信部分,理論的prefill和decode耗時都更小的推理方案”。

月之暗面研究員、知乎答主Flood Sung則表示,Kimi K2最值得關(guān)注的信息,除了MuonClip帶來的漂亮得起飛的loss曲線,還有就是Agent能力。他透露,為了實(shí)現(xiàn)更好的通用Agent能力,構(gòu)建了一個大規(guī)模的agent合成數(shù)據(jù)pipeline:簡單的說是一個完全自動化的agent數(shù)據(jù)生產(chǎn)工廠,通過全流程的模擬來過濾出好的Agent軌跡數(shù)據(jù)。Flood Sung稱,“這個生產(chǎn)線非常符合老子的思想:’一生二,二生三,三生萬物’。”
另一位月之暗面研發(fā)人員、知乎答主Justin Wong談到Kimi K2為何會選擇開源時稱,開源意味著能夠借助社區(qū)力量完善技術(shù)生態(tài),“在我們開源不到24小時就看到有社區(qū)做出K2的MLX實(shí)現(xiàn)、4bit量化等等,這些憑我們這點(diǎn)人力真的做不出來”。月之暗面研究員、知乎答主Dylan則表示,K2實(shí)際上就是一個剛出生的baby,雖然略顯“靈性”,但和很多已久的frontier model(前沿模型)相比,還是有很多、很明顯的缺點(diǎn),“作為post-train(后訓(xùn)練)相關(guān)的同學(xué),還是略感慚愧,希望后面的版本迭代里面能夠持續(xù)釋放K2 base model的潛力”。

據(jù)了解,開發(fā)者在AI成果發(fā)布的同時,越來越多選擇來知乎發(fā)布背后的詳盡思考。6月,月之暗面也曾發(fā)布一款A(yù)gent產(chǎn)品,Kimi-researcher兩位主要研發(fā)人員也在知乎親自答,解讀產(chǎn)品背后的技術(shù)思考和亮點(diǎn)。更早之前,月之暗面開源MoBA框架研發(fā)人員鹿恩哲、蘇劍林分別在知乎上講述了研發(fā)思路,引發(fā)了業(yè)界對“稀疏注意力”框架的討論。(周小白)
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。