▲头图由AI生成

智东西(公众号:zhidxcom)
编译 | 程茜
编辑 | 李水青

智东西9月16日消息,今日凌晨,OpenAI发布新模型GPT-5-Codex,这是其在GPT-5基础上专(zhuan)门为软件工程优化的模(mo)型版本,进一步提升了(le)Codex中(zhong)的智(zhi)能体(ti)编程(Agentic Coding)能力。

OpenAI在博客中提到,GPT-5-Codex的训练侧重于实际的软件工程工作,其可以根据任务动态调整思考时间,在大型复杂任务上能够独立工作超过7个小时

同时在基准测试中,相比于GPT-5,GPT-5-Codex在多项基准测试中的准确率、代码审查的高影响力评论概率都实现提升。

GPT-5-Codex发布后两个多小时,OpenAI联合创始人、CEO萨姆·阿尔特曼(Sam Altman)就在X中透露,GPT-5-Codex的流量占比已达到Codex总流量的40%左右,今(jin)天(tian)就能占到超(chao)一半流量比例。

连续干7小时“不累”!OpenAI最强编程模型GPT-5-Codex来了

在(zai)开发者使用(yong)Codex的所有场景中(zhong),GPT-5-Codex均可用(yong),它(ta)是云端任务和代(dai)码(ma)审查的默认(ren)工具,开发者也可通(tong)过Codex命(ming)令行(xing)界面(CLI)或集(ji)成(cheng)开发环境(IDE)进行(xing)扩展,选择(ze)将其用于本地(di)任务。

OpenAI今(jin)年4月首次推出开源编程智能体Codex CLI和5月首次推出Codex的(de)网(wang)页版,两(liang)周前其将Codex整合(he)为(wei)一(yi)个(ge)通过ChatGPT帐户连接(jie)的(de)单一(yi)产品体验,使(shi)得开发者可(ke)以在(zai)本地环境(jing)和云端之(zhi)间无缝迁移工作,而不会丢失上(shang)下文。

Codex包含在(zai)ChatGPT Plus、Pro、Business、教(jiao)育和(he)企业(ye)用(yong)(yong)户的订阅套(tao)餐(can)(can)中,其中Plus、教(jiao)育和(he)Business套(tao)餐(can)(can)每周可支持(chi)几次重点编码课(ke)程,Pro套(tao)餐(can)(can)可支持(chi)一周内(nei)多(duo)个项目的使用(yong)(yong)。对于通过API密钥使用(yong)(yong)Codex CLI的开发人员,OpenAI计划很快在(zai)API中提供GPT-5-Codex。

在OpenAI的X评论区,开发者称OpenAI这一新发布对(dui)于处理复杂项(xiang)目非常(chang)有(you)前景,还有(you)开发者对(dui)自己(ji)的AI工具订阅预(yu)算担(dan)忧。

连续干7小时“不累”!OpenAI最强编程模型GPT-5-Codex来了

一、根据任务动态调整思考时间,错误评论减少、高影响力评论增加

GPT-5-Codex针对复杂(za)的(de)实际工程(cheng)任(ren)务进行了训练,例(li)如从头构(gou)建完整(zheng)(zheng)项目、添加功能和测试(shi)、调试(shi)、执行大规模重构(gou)以及(ji)进行代码(ma)审查。其可以更好遵循AGENTS.md的(de)指令,并生(sheng)成高质量的(de)代码(ma),开发(fa)者只需(xu)(xu)提出自己(ji)的(de)需(xu)(xu)求(qiu),无(wu)需(xu)(xu)编写(xie)冗长的(de)代码(ma)风格或代码(ma)整(zheng)(zheng)洁性说明。

此外GPT‑5-Codex会根据任务的复杂程度,动态调整思(si)考(kao)时间,其执行任务的时间会从几秒到7个小时不等。该模型结合了编程智能体的两项基本技能:在交互式会话中与开发者配对,以及在较长的任务上持续、独立地执行。这意味着Codex在处(chu)理小型、定义明确的请求或与它聊天时(shi)(shi)会感觉更敏捷,并且在处(chu)理大型重构(gou)等复(fu)杂任务时(shi)(shi)也能工(gong)作更长时(shi)(shi)间。

从历史数据来看,包括GPT-5发布之时,OpenAI仅公布了477个衡量模型解决真实软件工程任务能力的基准测试集SWE-bench Verified的测试结果,这是因为当时部分任务无法在其基础设施环境中运行。如今,OpenAI已修复了这一问题,目前可公布全部500个任务的测试结果。GPT-5-Codex在该基准测试中的准确率为74.5%,GPT-5为72.8%。

OpenAI基于包含来自大型成熟代码库的重构风格任务测试了新模型的代码重构能力,涉及Python、Go、OCaml等编程语言。GPT-5-Codex在该测试中的准确率为51.3%,GPT-5为33.9%

连续干7小时“不累”!OpenAI最强编程模型GPT-5-Codex来了

在测试中,研究人员发现GPT‑5-Codex能够独立处理大型复杂任务超过7小时,不断迭代实现、修复测试错误并最终交付成功。

基(ji)于OpenAI内部员工的(de)使用(yong)情况,研究人员发(fa)现当按(an)模(mo)型生(sheng)成的(de)token数对用(yong)户交互轮次进行排(pai)序时(shi),其中生(sheng)成token数最少的(de)排(pai)名最后10%情况中,GPT-5-Codex使用(yong)的(de)token比GPT-5少93.7%。

排名(ming)前10%的情况正好相(xiang)反,GPT-5-Codex会进行更多思考,在(zai)推理(li)、代码编辑(ji)、测(ce)试(shi)以及迭代上花费的时间是(shi)GPT-5的两倍。

连续干7小时“不累”!OpenAI最强编程模型GPT-5-Codex来了

GPT-5-Codex还可用于执行代码审查并(bing)查找关键缺陷。审查时,它会浏(liu)览开发者的代码库,推理依赖关系,并(bing)运行代码和测试(shi)以(yi)验证正确(que)性。

OpenAI评估了热门开源(yuan)存储库中近期提交(jiao)的(de)代(dai)码审查(cha)(cha)性能,经验丰(feng)富的(de)软件(jian)工程师会在每次提交(jiao)时评估审查(cha)(cha)意见的(de)正(zheng)确(que)性和重要性。

GPT-5的错误评论有约13.7%,GPT-5-Codex仅为4.4%,高(gao)影响(xiang)力评论(lun)占比中GPT-5有39.4%,GPT-5-Codex有52.4%,每个拉取请求的平均评论数中,GPT-5平均有(you)1.32条(tiao),GPT-5-Codex有(you)0.9条(tiao)。

他们发现,GPT-5-Codex的意见不太可能出现错误或不重要的情况

连续干7小时“不累”!OpenAI最强编程模型GPT-5-Codex来了

据TechCrunch报道,OpenAI Codex产品负责人Alexander Embiricos在一次简报会上称,GPT-5-Codex性能提(ti)升(sheng)很大程度上得益于其动态(tai)思考能力。用户可能熟悉ChatGPT中GPT-5的实时路由器(Real-timerouter),它会根据任务的复杂性将查询定向到不同的模型,GPT-5-Codex的工作原理类似,但没有内置路由器,可以实时调整任务的处理时长。与路由器相比,这是一个优势,因为路由器一开始就决定了要用多少计算能力和时间来解决一个问题,而GPT-5-Codex可以在问题开始五分钟后就决定需要再花一个小时

OpenAI的官(guan)方博客(ke)也提到(dao),与通用模型GPT-5不同,他们建议(yi)开发者仅在Codex或(huo)类似Codex环(huan)境中执行智(zhi)能体(ti)编程任务时使用GPT-5-Codex。

二、三大核心改进,智能体编程工作流更自动化

此外,OpenAI最近还进行了(le)一些更新,包括改进的Codex CLI和新的Codex IDE扩(kuo)展(zhan)。

首先是针对Codex CLI。

基于(yu)开源社区对Codex CLI的(de)(de)反馈,OpenAI围(wei)绕(rao)智能体(ti)编程工作流重建了Codex CLI。现在,开发者可(ke)以直接在CLI中附加和共享图(tu)(tu)像(xiang),包括屏幕截图(tu)(tu)、线框图(tu)(tu)和图(tu)(tu)表等,从而构建基于(yu)设计(ji)决策的(de)(de)共享上下文,并准确获取所需(xu)内容。

在(zai)处理更复杂的工作时,Codex现在(zai)可以使用(yong)待(dai)办事项列表跟(gen)踪进(jin)度(du),并包含网页(ye)搜索和(he)MCP等用(yong)于连接外(wai)部(bu)系统的工具(ju),从(cong)而整(zheng)体(ti)上提高工具(ju)使用(yong)准确性。

终端用(yong)户界面的升级包(bao)括工具调(diao)用(yong)和差(cha)异(yi)显示(shi)格式(shi)更佳(jia)、更易于理解(jie)。

审(shen)批(pi)模式简(jian)化为三个级别:只(zhi)读(需明确(que)审(shen)批(pi))、自动(需完(wan)全访(fang)问工作(zuo)区(qu)但需在(zai)工作(zuo)区(qu)外(wai)审(shen)批(pi))以及完(wan)全访(fang)问(可在(zai)任意位(wei)置读取文件并通过网络访(fang)问运(yun)行命令)。其还支持压缩对(dui)话(hua)状态,方(fang)便开(kai)发者管理(li)较(jiao)长的会话(hua)。

连续干7小时“不累”!OpenAI最强编程模型GPT-5-Codex来了

其次是Codex IDE扩展。

这一IDE扩展(zhan)可(ke)将Codex智能体接入(ru)VS Code、Cursor以及其他基于VS Code衍生的(de)编(bian)辑器,允许其与Codex共同(tong)预览本地(di)代(dai)码(ma)变(bian)更、协同(tong)编(bian)辑代(dai)码(ma)。

当(dang)开发者在IDE中使用(yong)Codex时,只需输入更简短的指令(ling)就能获得结果(guo),这是因(yin)为Codex可利用(yong)上下文信息,例如开发者已(yi)打(da)开的文件或选中的代码片段。

Codex IDE扩展允许开(kai)(kai)发者在云(yun)端(duan)环境与本地环境之(zhi)间切换(huan)工(gong)作(zuo)流,开(kai)(kai)发者无(wu)需(xu)离(li)开(kai)(kai)编辑器,就能创建新的云(yun)端(duan)任务、跟(gen)踪正在进行中的工(gong)作(zuo)、查看已(yi)完成的任务。

若需对代码进行收尾(wei)调整(zheng),其(qi)还可以在IDE中直接(jie)打开云端任务(wu),且Codex会完整(zheng)保留相关上下文信(xin)息(xi)。

连续干7小时“不累”!OpenAI最强编程模型GPT-5-Codex来了

此外,OpenAI还一直在提升云基础设施的性能,通过缓存容器,其将新任务和后续任务的平均完成时间缩短了90%。Codex现在可(ke)以通过(guo)扫描并执行常(chang)用的(de)安装脚(jiao)本来自动设置环境;借助(zhu)可(ke)配置的(de)互联网(wang)访问权限,在运行时(shi)根据需要执行像(xiang)pip install这(zhei)样的(de)命令来获取依(yi)赖项(xiang)。

与CLI和IDE扩展中一样(yang),开(kai)发者现在可以通(tong)过上(shang)传(chuan)图像的方式(shi),向Codex共享(xiang)前端设(she)计规范,如界(jie)(jie)面原型图、视觉稿(gao),或(huo)上(shang)传(chuan)界(jie)(jie)面错位、样(yang)式(shi)异(yi)常的截图说明UI漏洞(dong)。

Codex构建前端内容时,可以(yi)自行(xing)启(qi)动(dong)浏(liu)览器查看已构建的效果并进行(xing)迭代(dai)优化,最(zui)终会(hui)将结果截图附加到对应任(ren)务(wu)以(yi)及(ji)GitHub拉取请求中。

连续干7小时“不累”!OpenAI最强编程模型GPT-5-Codex来了

在代码审查中,Codex可以被用于发现关键缺陷。

与静态(tai)分析(xi)工具不同(tong),它(ta)可以将(jiang)拉取请求中声明的开发意图(tu)与实际差异(yi)进行匹配(pei),结合整个代(dai)码库及依赖项展(zhan)开推理分析(xi),并通过执(zhi)行代(dai)码与测试(shi)用例来验证(zheng)实际运行行为(wei)。

一旦(dan)开发者在(zai)某个GitHub库(ku)启用(yong)了Codex,当拉(la)取请(qing)求从草稿(gao)状(zhuang)态(tai)转为就绪(xu)状(zhuang)态(tai)时,Codex就会自(zi)动对其进行审查,并将分析结果(guo)发布在(zai)该拉(la)取请(qing)求上。

如果Codex建议进行(xing)修(xiu)(xiu)改(gai)(gai),开发者可以在同一个对话线程中(zhong)让Codex直(zhi)接实(shi)施(shi)这些(xie)修(xiu)(xiu)改(gai)(gai)。

开发者也可以在拉取请求中(zhong)明(ming)确提及@codex review来请求审查,例(li)如@codex review for security vulnerabilities(让Codex审查安全漏洞(dong))或@codex review for outdated dependencies(让Codex审查过(guo)时(shi)的依赖项)。

连续干7小时“不累”!OpenAI最强编程模型GPT-5-Codex来了

Codex目前已在OpenAI内部,被用(yong)于审查其绝大(da)多数的拉取(qu)请求,每天能发现(xian)数百个问(wen)题(ti),而且往往是在人工审查开(kai)始之前就已发现(xian)。

结语:AI编程工具竞争白热化

当(dang)下,AI编(bian)程工具的竞争已经(jing)变得愈发激(ji)烈(lie),既(ji)有(you)(you)OpenAI Codex、Claude Code、Anysphere Cursor、微软GitHub Copilot几(ji)大产品进(jin)场厮(si)杀(sha),还(hai)有(you)(you)Cursor年(nian)度经(jing)常性收(shou)入(ARR)在2025年(nian)初就超过5亿美(mei)元,更有(you)(you)AI代码编(bian)辑器Windsurf遭遇一场混乱收(shou)购,导致(zhi)其团(tuan)队被谷歌和(he)Cognition两家公(gong)司瓜分。

OpenAI Codex此次升级,发(fa)布专门为智能体(ti)编程优化的全新模型,使得其(qi)自(zi)动化编程以及与用户协作的能力都大幅提升,证(zheng)明了AI编程工具竞赛的激烈程度持续升温。