Greg Brockman 演示 Codex 30 秒自动读报错改代码跑测试

Codex 自动操作电脑演示 — Brockman 演示 Codex 自主完成 30 秒 bug 修复闭环。

OpenAI 总裁 Greg Brockman 昨天在 X 上发了一段 30 秒视频，画面里 Codex 自己打开终端、读报错、改代码、跑测试，全程没有人按键盘。这条帖子（@gdb，2058232892266836141）在六小时内拿到 4.8k 转发，评论区里前 OpenAI 研究员 Andrej Karpathy 留了一句”这就是 agentic coding 该有的样子”，被顶到楼顶。

视频里被反复回看的几个细节

Brockman 这段演示里有两个点比较硬。一个是模型在跑测试失败后，主动回去看了 git log，定位到三次提交前引入的回归，改完后再次运行才提交；另一个是它在 30 秒里完成了”读 issue、改文件、运行验证”的完整闭环，没有等人类二次确认。这两点合起来意味着 Codex 的循环已经从”补全一段代码”升级到”自己跑完一次 bug 修复”。

能跑 demo 不等于能上生产

Greg Brockman 在帖子里给了一句相当克制的总结：”the model is now fluent on a computer”，没说生产可用，也没说替代工程师。这个分寸值得注意——演示里那段 bug 可能是 OpenAI 经过挑选的、上下文短、回归路径清晰，独立工程师如果在自己的真实仓库里复现同一段循环，大概率会在第三步卡住，目前 X 评论区已经有几位开发者贴出复现失败的截图。横向对照 Cursor 和 Claude Code，差异其实在执行边界——Cursor 主打 IDE 内的多文件改写、Claude Code 强调长任务里的自我反思与计划，Codex 这次演示更接近”无人值守的 shell 操作员”，三者解决的是同一类问题的不同切片。能不能扛住企业级仓库的复杂依赖，还得看接下来几个月有没有外部团队拿出可复现的成绩单。

参考链接

@gdb 在 X 的演示视频

Codex 实现端到端全自动开发

视频里被反复回看的几个细节

能跑 demo 不等于能上生产

参考链接

相关推荐