智东西(公众号:zhidxcom)
编译 | 陈骏达
编辑 | 云鹏

智东西11月11日报道,今天凌晨,月之暗面核心团队在社交媒体平台Reddit上举行了一场有问必答(AMA)活动,月之暗面联合创始人兼CEO杨植麟等(deng)人(ren)在Kimi K2 Thinking模型(xing)发布(bu)后不久(jiu),正面回应了模型(xing)训练成本、跑分与实(shi)际体验(yan)差距(ju)等(deng)热点议题。

Kimi K2 Thinking模型训练成本仅为460万美元的网络传言喊得响亮,不过,杨植麟已经打假了,他称,这并非(fei)官方(fang)数据,训练成本很(hen)难(nan)量化,因(yin)为其中很(hen)大一部(bu)分用于研究和实验。他(ta)还透露(lu),月之(zhi)暗(an)面已经在研(yan)究K2的VL(视觉-语言)版本了。

罕见!月之暗面杨植麟、周昕宇、吴育昕回应一切:打假460万美元、调侃OpenAI

有(you)不(bu)少(shao)海外网友提出了十(shi)分(fen)尖(jian)锐(rui)的(de)问题(ti),比如(ru)Kimi K2 Thinking的(de)推(tui)理长(zhang)度过长(zhang),榜单(dan)(dan)成绩与实(shi)际体验(yan)不(bu)符等问题(ti)。杨植麟解(jie)释了背后的(de)原因,他称现阶段该(gai)模型优先考虑绝对性能,token效率会在(zai)后续得到(dao)改(gai)善。榜单(dan)(dan)高(gao)分(fen)与实(shi)测(ce)的(de)脱节,也会在(zai)模型通用能力补齐(qi)后获(huo)得改(gai)善。

10月底,月之暗面开源了混合线性注意力架构Kimi Linear,首次在短上下文、长上下文、强化学习扩展机制等各种场景中超越了全注意力机制,引来不少开发者关注。杨植麟称,Kimi Linear的KDA混合(he)线性(xing)注意力模块,很可能会以某种(zhong)形式(shi)出现在K3中。

而当网友问及K3的发布时间时,杨植麟戏谑地回应道:“在Sam价值万(wan)亿美元的数据(ju)中(zhong)心建成(cheng)之前。”

罕见!月之暗面杨植麟、周昕宇、吴育昕回应一切:打假460万美元、调侃OpenAI

月之暗面团队似乎还在另外几条评论中调侃了OpenAI。当网友问及有无AI浏览器的开发计划时,月(yue)之暗面联(lian)合(he)创始人兼算(suan)法团队负责人周昕宇(yu)要做出(chu)更(geng)好的(de)模(mo)型(xing),并不需要再去套(tao)一层新(xin)的(de)Chromium壳。而当网(wang)友好奇OpenAI为何(he)要烧掉那么(me)多钱时,周昕宇称:“这个问题(ti)只有(you)Sam才知道。我们有(you)自己的(de)方(fang)式和节奏。”

面对(dui)外界关于“开(kai)源是否(fou)会带来安全(quan)(quan)风险”的(de)提问,杨(yang)植(zhi)麟回(hui)应称,开(kai)放(fang)安全(quan)(quan)对(dui)齐技术栈有(you)助于更(geng)多研究者在微调开(kai)源模型时(shi)保(bao)持安全(quan)(quan)性,同(tong)时(shi)他也强(qiang)调需(xu)要建立机制(zhi),确保(bao)这(zhei)些后续工作遵循安全(quan)(quan)协议。

他还在另(ling)一条评论中补充道:“我们拥抱开源,因为我们相信对(dui)AGI(通(tong)用(yong)人工智能)的追求,应该(gai)带来团结(jie),而不(bu)是分裂。”

月(yue)之暗面联合创始人(ren)吴(wu)育昕也一同(tong)参与了(le)(le)这场(chang)问(wen)答(da),杨植麟、周昕(xin)宇、吴育昕(xin)围绕(rao)Kimi系(xi)列模型(xing)的架构创新、训练细(xi)节、开(kai)源策略(lve)以及未来规划(hua)与网友(you)进行了(le)(le)交流。

一、K2 Thinking现有优先级是性能,独特文风背后有诀窍

在这场活动(dong)中,最受关(guan)注的(de)焦点是Kimi K2 Thinking模型,这是月(yue)之暗面(mian)最新(xin)发布(bu)的(de)开源(yuan)推理模型。

有网友称,自己测试了Kimi K2 Thinking与GPT-5 Thinking,前者的正确率领先,但推理时间更长,像是在不停复查自己。对此,杨植麟称,他们正在积极优化token使用效率。当前版本中,优先考虑(lv)的(de)是绝(jue)对性(xing)能而非token效率。月之暗面会尝试将效率纳入奖(jiang)励机(ji)制,以便它能(neng)学习如何简(jian)化思考过程。

罕见!月之暗面杨植麟、周昕宇、吴育昕回应一切:打假460万美元、调侃OpenAI

还有网友质疑,Kimi K2 Thinking是否经过专(zhuan)门训(xun)练,以(yi)在HLE这(zhei)一(yi)基准测试中取得(de)好成(cheng)绩(ji)?它(ta)的高分(fen)似乎与实(shi)际使用中的智能水平不太相符。

杨植麟回(hui)应(ying)道,Kimi K2 Thinking在提(ti)升智(zhi)能体推理能力方面取得了一些进展(zhan),使(shi)其在HLE测试中(zhong)得分较高。月之暗面正在努力进一步(bu)提(ti)升其通用能力,以便在更(geng)多(duo)实际应(ying)用场景中(zhong)充分发挥智(zhi)能的作用。

另有网(wang)友问(wen)道:“为何K2 Thinking能在一次推理中保(bao)持如(ru)此长的(de)思(si)维链,而(er)GPT-5不行?”

杨植麟解释道:“我认为推理时间取决于API吞吐,而推理token的数量取决于模型训练方式。我们在训(xun)练Kimi K2 Thinking时倾向于(yu)使(shi)用更(geng)多的思考(kao)token以获得最佳效果。我(wo)们的Turbo API会更快,同(tong)时Kimi K2 Thinking原生采用(yong)INT4,这也提(ti)升了推理(li)速(su)度(du)。

Kimi K2 Thinking是(shi)一款(kuan)纯文本模(mo)型,有网友(you)提问称,这(zhei)究竟是(shi)为(wei)了达到SOTA而做出的短期权衡,还是(shi)一项长期投资(zi)?杨植麟(lin)回应,获得正确(que)的VL数(shu)据和训练需要时(shi)间,因(yin)此月之暗面选择先发布(bu)文本模(mo)型。

Kimi K2系列模型不阿谀奉承、直接的文风在AI界算是一股清流,有不少网友认可这种风格。吴育昕称,这种(zhong)写作风格是模(mo)型(xing)后训练数据和评估的重要(yao)组成部分(fen)。

谈(tan)及KDA,杨植麟(lin)称,从(cong)历(li)史上看,混合注(zhu)意(yi)(yi)力(li)(li)在长输入(ru)和长输出任务(wu)上要超越全注(zhu)意(yi)(yi)力(li)(li)一(yi)直很困难(nan)。KDA在所有(you)维度上都展示(shi)了性能(neng)提升,包(bao)括长思维链(lian)RL场景,同(tong)时保持了线性注(zhu)意(yi)(yi)力(li)(li)的高效性。

另一位网友(you)补(bu)充道(dao),希(xi)望KDA能结(jie)合扩(kuo)散(san)模型使用(yong)(yong)。杨植麟认为这(zhei)一想法是(shi)可(ke)行(xing)的,但文本扩(kuo)散(san)(text diffusion)比较困难,可(ke)能是(shi)因为在(zai)将扩(kuo)散(san)应用(yong)(yong)到文本上时(shi),还没有足够好的先验。

周昕宇(yu)在技术层面(mian)进一步解释了KDA的对比优势。他称,KDA混合架构结合NoPE MLA后,在预训练(lian)和强化学习阶(jie)段均优于(yu)采用RoPE的完整MLA。不(bu)仅基准得分更(geng)高,还更(geng)快、更(geng)经济,使他们(men)能够(gou)更(geng)高效地(di)训练(lian)、部(bu)署(shu)并(bing)服务更(geng)多用户。未来,月之(zhi)暗面(mian)还有进一步改进,成熟(shu)后会公开。

罕见!月之暗面杨植麟、周昕宇、吴育昕回应一切:打假460万美元、调侃OpenAI

近期,DeepSeek、智谱都曾发布以视觉方式作为输入,以提升效率的探索。不过,周昕宇称,他个人认为这种方(fang)法过于刻意,自(zi)己更(geng)倾(qing)向于继(ji)续探索特征空(kong)间,寻找更(geng)通(tong)用、与模态无关的方(fang)法来提(ti)高模型效率。

此前,月之暗面曾经在模(mo)型中采用了Muon作为优化(hua)器(qi),网友认为这一优化(hua)器(qi)相(xiang)对来(lai)说未(wei)经测试,这一决(jue)定似乎有些疯狂。

周昕宇解释(shi)了(le)采用Muon的(de)历程。他(ta)称,Muon是一(yi)个未经(jing)(jing)其他(ta)厂(chang)商测试(shi)(shi)的(de)优化器(qi),但月之暗面(mian)已经(jing)(jing)用它进行了(le)所有(you)(you)的(de)扩展测试(shi)(shi),结(jie)果都通过了(le)。他(ta)们(men)对自(zi)己(ji)的(de)研究(jiu)成果充满信心,网友或许认(ren)为Muon只是运(yun)气好,但实(shi)际上有(you)(you)几十种优化器(qi)和架(jia)构没有(you)(you)经(jing)(jing)受住这样的(de)考验。

二、“被封禁”已超出控制范围,上下文窗口将进一步扩展

月之暗面三位联合创(chuang)始人还集中回应了与模(mo)型(xing)服务、开(kai)源等相(xiang)关话题的(de)(de)(de)疑问。有(you)网友称,Kimi在自己的(de)(de)(de)公司(si)已经(jing)成为(wei)主(zhu)要的(de)(de)(de)测试模(mo)型(xing),但生产环(huan)境会切换到美国(guo)(guo)本土的(de)(de)(de)模(mo)型(xing)。这主(zhu)要是(shi)因为(wei)领导层担心Kimi是(shi)“中国(guo)(guo)大模(mo)型(xing)”,可能存(cun)在一些风险。

这(zhei)位(wei)网友还(hai)分享,自己很喜欢(huan)使(shi)用(yong)Kimi App,自己一(yi)位(wei)在亚马(ma)逊工作的朋(peng)友也很喜欢(huan)这(zhei)一(yi)应用(yong),但由于亚马(ma)逊有规定必须使(shi)用(yong)自家的AI助手,禁止在工作场(chang)合(he)使(shi)用(yong)其他主流的AI助手App。网友担(dan)心,随着Kimi逐渐变得(de)知名(ming),她(ta)会(hui)不会(hui)再也无法在工作场(chang)合(he)中使(shi)用(yong)呢?

吴育昕回(hui)应称(cheng):“虽然(ran)被“封禁”往往超出我(wo)们的控制范围,但开(kai)源(yuan)该(gai)模型(xing)有望成为消(xiao)除部(bu)分顾虑的有效途径(企业(ye)可(ke)以自行部(bu)署)。我(wo)们希望看到一个(ge)更加信任的世界,但这(zhei)需(xu)要(yao)时间。”

罕见!月之暗面杨植麟、周昕宇、吴育昕回应一切:打假460万美元、调侃OpenAI

上下文一直是影响AI模型在生产环境应用的重要因素。目前,Kimi K2 Thinking最大支持256K的上下文,有网友反馈这对大型代码库而言并不算大。杨植(zhi)麟(lin)称,月之(zhi)暗面应该能(neng)在未来的版本(ben)中增加上(shang)下(xia)文长(zhang)度。

还有网友希(xi)望月(yue)之暗面(mian)能将模型上(shang)下文(wen)窗(chuang)口提升到100万个token,周昕宇回复道,月(yue)之暗面(mian)之前(qian)已尝试过100万个token的(de)上(shang)下文(wen)窗(chuang)口,但当时的(de)服(fu)务成本太(tai)高。未来他(ta)们会重(zhong)新(xin)考虑更长的(de)上(shang)下文(wen)窗(chuang)口

当被问及(ji)有无AI浏览器的(de)开发计划时,周昕宇十(shi)分犀利地(di)回复道:要做(zuo)出更好的(de)模(mo)(mo)型(xing),并不需要再去(qu)套(tao)一层新(xin)的(de)Chromium壳。杨植麟称,月之暗(an)面目(mu)前将专注(zhu)于模(mo)(mo)型(xing)训练(lian),但(dan)会不断更新(xin)kimi.com ,使其包含最新(xin)功(gong)能。

还有不(bu)少网友提到,希望月之暗面(mian)能(neng)推出(chu)规模更(geng)小的模型(xing)。杨植麟称,Kimi-Linear-48B-A3B-Instruct就是月之暗面(mian)发布的小型(xing)模型(xing)之一,未(wei)来他们可(ke)能(neng)会(hui)训(xun)练更(geng)多模型(xing)并添(tian)加更(geng)多功能(neng)。

目前,Kimi已经提(ti)供了编程订阅方(fang)案,这(zhei)一计费方(fang)式是基于API请求(qiu)次数,有(you)网(wang)友称这(zhei)种模式导致(zhi)资源消耗偏高。月之暗面(mian)回应称,API请求(qiu)次数计费能让用(yong)户看到费用(yong)明细(xi),同时也(ye)更(geng)(geng)符合(he)企业的成本结(jie)构(gou)。不过,他们会(hui)尽快找(zhao)到更(geng)(geng)好的方(fang)案。

结语:中国AI创新能力获得认可

从社(she)区中(zhong)海外开发者(zhe)的热烈提问和尖锐反馈可以看出,以Kimi系列为代表的中(zhong)国模(mo)型正(zheng)受到前(qian)所未有的关注。

月之(zhi)暗面此次在Reddit平台的公开问答(da),集中回应(ying)了全球网友对Kimi技术细节的大量兴趣和疑问。这种(zhong)关注(zhu)背后,也折射出全球开发者对中国AI创新(xin)能力(li)的认可。