罕见！月之暗面杨植麟、周昕宇、吴育昕回应一切：打假460万美元、调侃OpenAI

智东西（公众号：zhidxcom）
编译 | 陈骏达
编辑 | 云鹏

智东西11月11日报道，今天凌晨，月之暗面核心团队在社交媒体平台Reddit上举行了一场有问必答（AMA）活动，月之暗面联合创始人兼CEO杨植麟等(deng)人(ren)在Kimi K2 Thinking模型(xing)发布(bu)后不久(jiu)，正面回应了模型(xing)训练成本、跑分与实(shi)际体验(yan)差距(ju)等(deng)热点议题。

Kimi K2 Thinking模型训练成本仅为460万美元的网络传言喊得响亮，不过，杨植麟已经打假了，他称，这并非(fei)官方(fang)数据，训练成本很(hen)难(nan)量化，因(yin)为其中很(hen)大一部(bu)分用于研究和实验。他(ta)还透露(lu)，月之(zhi)暗(an)面已经在研(yan)究K2的VL（视觉-语言）版本了。

罕见！月之暗面杨植麟、周昕宇、吴育昕回应一切：打假460万美元、调侃OpenAI

有(you)不(bu)少(shao)海外网友提出了十(shi)分(fen)尖(jian)锐(rui)的(de)问题(ti)，比如(ru)Kimi K2 Thinking的(de)推(tui)理长(zhang)度过长(zhang)，榜单(dan)(dan)成绩与实(shi)际体验(yan)不(bu)符等问题(ti)。杨植麟解(jie)释了背后的(de)原因，他称现阶段该(gai)模型优先考虑绝对性能，token效率会在(zai)后续得到(dao)改(gai)善。榜单(dan)(dan)高(gao)分(fen)与实(shi)测(ce)的(de)脱节，也会在(zai)模型通用能力补齐(qi)后获(huo)得改(gai)善。

10月底，月之暗面开源了混合线性注意力架构Kimi Linear，首次在短上下文、长上下文、强化学习扩展机制等各种场景中超越了全注意力机制，引来不少开发者关注。杨植麟称，Kimi Linear的KDA混合(he)线性(xing)注意力模块，很可能会以某种(zhong)形式(shi)出现在K3中。

而当网友问及K3的发布时间时，杨植麟戏谑地回应道：“在Sam价值万(wan)亿美元的数据(ju)中(zhong)心建成(cheng)之前。”

罕见！月之暗面杨植麟、周昕宇、吴育昕回应一切：打假460万美元、调侃OpenAI

月之暗面团队似乎还在另外几条评论中调侃了OpenAI。当网友问及有无AI浏览器的开发计划时，月(yue)之暗面联(lian)合(he)创始人兼算(suan)法团队负责人周昕宇(yu)称，要做出(chu)更(geng)好的(de)模(mo)型(xing)，并不需要再去套(tao)一层新(xin)的(de)Chromium壳。而当网(wang)友好奇OpenAI为何(he)要烧掉那么(me)多钱时，周昕宇称：“这个问题(ti)只有(you)Sam才知道。我们有(you)自己的(de)方(fang)式和节奏。”

面对(dui)外界关于“开(kai)源是否(fou)会带来安全(quan)(quan)风险”的(de)提问，杨(yang)植(zhi)麟回(hui)应称，开(kai)放(fang)安全(quan)(quan)对(dui)齐技术栈有(you)助于更(geng)多研究者在微调开(kai)源模型时(shi)保(bao)持安全(quan)(quan)性，同(tong)时(shi)他也强(qiang)调需(xu)要建立机制(zhi)，确保(bao)这(zhei)些后续工作遵循安全(quan)(quan)协议。

他还在另(ling)一条评论中补充道：“我们拥抱开源，因为我们相信对(dui)AGI（通(tong)用(yong)人工智能）的追求，应该(gai)带来团结(jie)，而不(bu)是分裂。”

月(yue)之暗面联合创始人(ren)吴(wu)育昕也一同(tong)参与了(le)(le)这场(chang)问(wen)答(da)，杨植麟、周昕(xin)宇、吴育昕(xin)围绕(rao)Kimi系(xi)列模型(xing)的架构创新、训练细(xi)节、开(kai)源策略(lve)以及未来规划(hua)与网友(you)进行了(le)(le)交流。

一、K2 Thinking现有优先级是性能，独特文风背后有诀窍

在这场活动(dong)中，最受关(guan)注的(de)焦点是Kimi K2 Thinking模型，这是月(yue)之暗面(mian)最新(xin)发布(bu)的(de)开源(yuan)推理模型。

有网友称，自己测试了Kimi K2 Thinking与GPT-5 Thinking，前者的正确率领先，但推理时间更长，像是在不停复查自己。对此，杨植麟称，他们正在积极优化token使用效率。当前版本中，优先考虑(lv)的(de)是绝(jue)对性(xing)能而非token效率。月之暗面会尝试将效率纳入奖(jiang)励机(ji)制，以便它能(neng)学习如何简(jian)化思考过程。

罕见！月之暗面杨植麟、周昕宇、吴育昕回应一切：打假460万美元、调侃OpenAI

还有网友质疑，Kimi K2 Thinking是否经过专(zhuan)门训(xun)练，以(yi)在HLE这(zhei)一(yi)基准测试中取得(de)好成(cheng)绩(ji)？它(ta)的高分(fen)似乎与实(shi)际使用中的智能水平不太相符。

杨植麟回(hui)应(ying)道，Kimi K2 Thinking在提(ti)升智(zhi)能体推理能力方面取得了一些进展(zhan)，使(shi)其在HLE测试中(zhong)得分较高。月之暗面正在努力进一步(bu)提(ti)升其通用能力，以便在更(geng)多(duo)实际应(ying)用场景中(zhong)充分发挥智(zhi)能的作用。

另有网(wang)友问(wen)道：“为何K2 Thinking能在一次推理中保(bao)持如(ru)此长的(de)思(si)维链，而(er)GPT-5不行？”

杨植麟解释道：“我认为推理时间取决于API吞吐，而推理token的数量取决于模型训练方式。我们在训(xun)练Kimi K2 Thinking时倾向于(yu)使(shi)用更(geng)多的思考(kao)token以获得最佳效果。我(wo)们的Turbo API会更快，同(tong)时Kimi K2 Thinking原生采用(yong)INT4，这也提(ti)升了推理(li)速(su)度(du)。

Kimi K2 Thinking是(shi)一款(kuan)纯文本模(mo)型，有网友(you)提问称，这(zhei)究竟是(shi)为(wei)了达到SOTA而做出的短期权衡，还是(shi)一项长期投资(zi)？杨植麟(lin)回应，获得正确(que)的VL数(shu)据和训练需要时(shi)间，因(yin)此月之暗面选择先发布(bu)文本模(mo)型。

Kimi K2系列模型不阿谀奉承、直接的文风在AI界算是一股清流，有不少网友认可这种风格。吴育昕称，这种(zhong)写作风格是模(mo)型(xing)后训练数据和评估的重要(yao)组成部分(fen)。

谈(tan)及KDA，杨植麟(lin)称，从(cong)历(li)史上看，混合注(zhu)意(yi)(yi)力(li)(li)在长输入(ru)和长输出任务(wu)上要超越全注(zhu)意(yi)(yi)力(li)(li)一(yi)直很困难(nan)。KDA在所有(you)维度上都展示(shi)了性能(neng)提升，包(bao)括长思维链(lian)RL场景，同(tong)时保持了线性注(zhu)意(yi)(yi)力(li)(li)的高效性。

另一位网友(you)补(bu)充道(dao)，希(xi)望KDA能结(jie)合扩(kuo)散(san)模型使用(yong)(yong)。杨植麟认为这(zhei)一想法是(shi)可(ke)行(xing)的，但文本扩(kuo)散(san)（text diffusion）比较困难，可(ke)能是(shi)因为在(zai)将扩(kuo)散(san)应用(yong)(yong)到文本上时(shi)，还没有足够好的先验。

周昕宇(yu)在技术层面(mian)进一步解释了KDA的对比优势。他称，KDA混合架构结合NoPE MLA后，在预训练(lian)和强化学习阶(jie)段均优于(yu)采用RoPE的完整MLA。不(bu)仅基准得分更(geng)高，还更(geng)快、更(geng)经济，使他们(men)能够(gou)更(geng)高效地(di)训练(lian)、部(bu)署(shu)并(bing)服务更(geng)多用户。未来，月之(zhi)暗面(mian)还有进一步改进，成熟(shu)后会公开。

罕见！月之暗面杨植麟、周昕宇、吴育昕回应一切：打假460万美元、调侃OpenAI

近期，DeepSeek、智谱都曾发布以视觉方式作为输入，以提升效率的探索。不过，周昕宇称，他个人认为这种方(fang)法过于刻意，自(zi)己更(geng)倾(qing)向于继(ji)续探索特征空(kong)间，寻找更(geng)通(tong)用、与模态无关的方(fang)法来提(ti)高模型效率。

此前，月之暗面曾经在模(mo)型中采用了Muon作为优化(hua)器(qi)，网友认为这一优化(hua)器(qi)相(xiang)对来(lai)说未(wei)经测试，这一决(jue)定似乎有些疯狂。

周昕宇解释(shi)了(le)采用Muon的(de)历程。他(ta)称，Muon是一(yi)个未经(jing)(jing)其他(ta)厂(chang)商测试(shi)(shi)的(de)优化器(qi)，但月之暗面(mian)已经(jing)(jing)用它进行了(le)所有(you)(you)的(de)扩展测试(shi)(shi)，结(jie)果都通过了(le)。他(ta)们(men)对自(zi)己(ji)的(de)研究(jiu)成果充满信心，网友或许认(ren)为Muon只是运(yun)气好，但实(shi)际上有(you)(you)几十种优化器(qi)和架(jia)构没有(you)(you)经(jing)(jing)受住这样的(de)考验。

二、“被封禁”已超出控制范围，上下文窗口将进一步扩展

月之暗面三位联合创(chuang)始人还集中回应了与模(mo)型(xing)服务、开(kai)源等相(xiang)关话题的(de)(de)(de)疑问。有(you)网友称，Kimi在自己的(de)(de)(de)公司(si)已经(jing)成为(wei)主(zhu)要的(de)(de)(de)测试模(mo)型(xing)，但生产环(huan)境会切换到美国(guo)(guo)本土的(de)(de)(de)模(mo)型(xing)。这主(zhu)要是(shi)因为(wei)领导层担心Kimi是(shi)“中国(guo)(guo)大模(mo)型(xing)”，可能存(cun)在一些风险。

这(zhei)位(wei)网友还(hai)分享，自己很喜欢(huan)使(shi)用(yong)Kimi App，自己一(yi)位(wei)在亚马(ma)逊工作的朋(peng)友也很喜欢(huan)这(zhei)一(yi)应用(yong)，但由于亚马(ma)逊有规定必须使(shi)用(yong)自家的AI助手，禁止在工作场(chang)合(he)使(shi)用(yong)其他主流的AI助手App。网友担(dan)心，随着Kimi逐渐变得(de)知名(ming)，她(ta)会(hui)不会(hui)再也无法在工作场(chang)合(he)中使(shi)用(yong)呢？

吴育昕回(hui)应称(cheng)：“虽然(ran)被“封禁”往往超出我(wo)们的控制范围，但开(kai)源(yuan)该(gai)模型(xing)有望成为消(xiao)除部(bu)分顾虑的有效途径（企业(ye)可(ke)以自行部(bu)署）。我(wo)们希望看到一个(ge)更加信任的世界，但这(zhei)需(xu)要(yao)时间。”

罕见！月之暗面杨植麟、周昕宇、吴育昕回应一切：打假460万美元、调侃OpenAI

上下文一直是影响AI模型在生产环境应用的重要因素。目前，Kimi K2 Thinking最大支持256K的上下文，有网友反馈这对大型代码库而言并不算大。杨植(zhi)麟(lin)称，月之(zhi)暗面应该能(neng)在未来的版本(ben)中增加上(shang)下(xia)文长(zhang)度。

还有网友希(xi)望月(yue)之暗面(mian)能将模型上(shang)下文(wen)窗(chuang)口提升到100万个token，周昕宇回复道，月(yue)之暗面(mian)之前(qian)已尝试过100万个token的(de)上(shang)下文(wen)窗(chuang)口，但当时的(de)服(fu)务成本太(tai)高。未来他(ta)们会重(zhong)新(xin)考虑更长的(de)上(shang)下文(wen)窗(chuang)口

当被问及(ji)有无AI浏览器的(de)开发计划时，周昕宇十(shi)分犀利地(di)回复道：要做(zuo)出更好的(de)模(mo)(mo)型(xing)，并不需要再去(qu)套(tao)一层新(xin)的(de)Chromium壳。杨植麟称，月之暗(an)面目(mu)前将专注(zhu)于模(mo)(mo)型(xing)训练(lian)，但(dan)会不断更新(xin)kimi.com ，使其包含最新(xin)功(gong)能。

还有不(bu)少网友提到，希望月之暗面(mian)能(neng)推出(chu)规模更(geng)小的模型(xing)。杨植麟称，Kimi-Linear-48B-A3B-Instruct就是月之暗面(mian)发布的小型(xing)模型(xing)之一，未(wei)来他们可(ke)能(neng)会(hui)训(xun)练更(geng)多模型(xing)并添(tian)加更(geng)多功能(neng)。

目前，Kimi已经提(ti)供了编程订阅方(fang)案，这(zhei)一计费方(fang)式是基于API请求(qiu)次数，有(you)网(wang)友称这(zhei)种模式导致(zhi)资源消耗偏高。月之暗面(mian)回应称，API请求(qiu)次数计费能让用(yong)户看到费用(yong)明细(xi)，同时也(ye)更(geng)(geng)符合(he)企业的成本结(jie)构(gou)。不过，他们会(hui)尽快找(zhao)到更(geng)(geng)好的方(fang)案。

结语：中国AI创新能力获得认可

从社(she)区中(zhong)海外开发者(zhe)的热烈提问和尖锐反馈可以看出，以Kimi系列为代表的中(zhong)国模(mo)型正(zheng)受到前(qian)所未有的关注。

月之(zhi)暗面此次在Reddit平台的公开问答(da)，集中回应(ying)了全球网友对Kimi技术细节的大量兴趣和疑问。这种(zhong)关注(zhu)背后，也折射出全球开发者对中国AI创新(xin)能力(li)的认可。

国产成人亚洲精品狼色在线,亚洲成色www久久网站,强制高潮(h)调教,大伊香蕉在线精品视频75,日本无码少妇成人久久丫

一、K2 Thinking现有优先级是性能，独特文风背后有诀窍

二、“被封禁”已超出控制范围，上下文窗口将进一步扩展

结语：中国AI创新能力获得认可

相关推荐