
OpenAI 总裁 Greg Brockman 昨天在 X 上发了一段 30 秒视频,画面里 Codex 自己打开终端、读报错、改代码、跑测试,全程没有人按键盘。这条帖子(@gdb,2058232892266836141)在六小时内拿到 4.8k 转发,评论区里前 OpenAI 研究员 Andrej Karpathy 留了一句”这就是 agentic coding 该有的样子”,被顶到楼顶。
视频里被反复回看的几个细节
Brockman 这段演示里有两个点比较硬。一个是模型在跑测试失败后,主动回去看了 git log,定位到三次提交前引入的回归,改完后再次运行才提交;另一个是它在 30 秒里完成了”读 issue、改文件、运行验证”的完整闭环,没有等人类二次确认。这两点合起来意味着 Codex 的循环已经从”补全一段代码”升级到”自己跑完一次 bug 修复”。
能跑 demo 不等于能上生产
Greg Brockman 在帖子里给了一句相当克制的总结:”the model is now fluent on a computer”,没说生产可用,也没说替代工程师。这个分寸值得注意——演示里那段 bug 可能是 OpenAI 经过挑选的、上下文短、回归路径清晰,独立工程师如果在自己的真实仓库里复现同一段循环,大概率会在第三步卡住,目前 X 评论区已经有几位开发者贴出复现失败的截图。横向对照 Cursor 和 Claude Code,差异其实在执行边界——Cursor 主打 IDE 内的多文件改写、Claude Code 强调长任务里的自我反思与计划,Codex 这次演示更接近”无人值守的 shell 操作员”,三者解决的是同一类问题的不同切片。能不能扛住企业级仓库的复杂依赖,还得看接下来几个月有没有外部团队拿出可复现的成绩单。