• 点击右上角微信好友

    朋友圈

    请使用浏览器分享功能进行分享

    正在阅读:首次完整披露!月之暗面创始人英伟达大会重磅发声
    首页>时政频道>要闻>正文

    首次完整披露!月之暗面创始人英伟达大会重磅发声

    来源:{getone name="zzc/xinwenwang"/}2026-04-17 16:51:15

    【导读】AI大模型龙头月之暗面创始人杨植麟首次完整披露Kimi技术路线图

    中国基金报记者 卢鸰

    北京时񝮋�日凌晨,月之暗面Kimi创始人杨植麟在主题为《How We Scaled Kimi K2.5》的演讲中首次完整披露Kimi技术路线图,并将焦点对准了大模型中被沿用多年的底层架构。

    杨植麟认为,要推动大模型智能上限的持续突破,必须对优化器、注意力机制及残差连接等底层基石进行重构。

    据悉,目前月之暗面Kimi正以投前估�亿美元(约合人民�亿元),进行新一�亿美元融资。约一个月前,Kimi刚完成񚉳亿美元的融资,当时估值�亿美元;而在去年底一񙩑亿美元的融资中,其估值�亿美元。

    首次完整披露Kimi技术路线图

    在正在举行的英伟达GTC 2026大会上,算力基建的规模化(Scaling)已成为行业共识。

    继今年 1 月底正式发布Kimi K2.5以后,杨植麟在本次演讲中首次系统性披露了该模型背后的技术路线图。他将Kimi的进化逻辑归纳为三个维度的共振:Token效率、长上下文以及智能体集群(Agent Swarms)。

    在杨植麟看来,当前的Scaling不再是单纯的资源堆砌,而是要在计算效率、长程记忆和自动化协作上同时寻找规模效应。如果能将这三个维度的技术增益相乘,模型将表现出远超现状的智能水平。

    技术重构是本次演讲的核心。杨植麟提出,行业目前普遍使用的很多技术标准,本质上是八九年前的产物,正逐渐成为Scaling 的瓶颈。

    针�年诞生的全注意力机制(Full Attention),杨植麟展示了基于 KDA 架构的Kimi Linear。这是一种混合线性注意力架构,它挑战了“所有层必须使用全注意力”的惯例。

    此外,针对已有十年历史的残差连接,Kimi引入了Attention Residuals 方案,将传统的固定加法累加替换为对前序层输出的Softmax注意力。这项工作引发了前OpenAI 联合创始人Karpathy的思考,直言对Attention is All You Need这篇Transformer开山之作的理解仍然不够。xAI创始人马斯克也评论称,Kimi这项工作令人印象深刻。

    AI研究范式之变

    在演讲的最后,杨植麟深入探讨了智能体集群的扩展。

    他认为,未来的智能形态将从单智能体向动态生成的集群进化。Kimi K2.5 引入的Orchestrator机制,能够将复杂的长任务拆解给数十个子Agent并行处理。为了防止协作过程中出现单点依赖导致的“串行塌缩”,团队设计了全新的并行RL奖励函数,激励模型真正学会任务分解与并行执行。

    在总结中,杨植麟还谈到了AI研究范式的转变。

    他提到,十年前的研究往往更看重新想法的发表,但受限于算力资源,很难通过不同规模的实验来验证这些想法。而现在由于拥有了足够的资源和“缩放阶梯(Scaling Ladder)”,研究者可以进行严谨的规模化实验,从而得出更自信、更可靠的结论。这也是为什么Kimi能够从那些看似“古老”的技术中挖掘出新突破的原因。Kimi 将继续坚持开源路径,将MuonClip、Kimi Linear和 Attention Residuals等底层创新贡献给开源社区。

    编辑:杜妍

    校对:王玥

    制作:鹿米

    审核:陈墨

    版权声明

    《中国基金报》对本平台所刊载的原创内容享有著作权,未经授权禁止转载,否则将追究法律责任。

    授权转载合作联系人:于先生(电话:0755-82468670)

    [责编:{getone name="zzc/mingzi"/}]
    阅读剩余全文(