两个测试:Claude Code确实变“怪”了,Codex Cli还不太“聪明”

两个测试:Claude Code确实变“怪”了,Codex Cli还不太“聪明”


前段时间深刻体会的Claude Code“降智”问题,官方终于给了回应:推理堆栈的问题。

我也确实认为是这个原因,而不太是节省算力的问题。

有朋友让我评价一下Claude Code和Codex Cli(基于GPT-5),我就做了几个小测试。

TL;DR,先说一下结论:

  1. 我对Claude Code的变化,非常的不适应,它甚至于让我开始对模型的未来产生了一丝担心:如果很少一部分的数据或者强化学习中细微的处理逻辑变化,就能让模型产出变化如此之大,那是不是意味着模型很长时间里都不能很好的投入到对可靠性要求高的生产环境中?

  2. 我们能很清晰的看到,在Agentic AI时代,三大模型非常显著的区别,无论外部评价如何,它们依然是模型谱系里血缘关系最远(独立性最强)的三座山峰,而其它模型,你都能从中产生明显的“一脉相承”的感觉。

  3. 至少在程序开发上,Codex cli还不太能取代Claude Code。尽管增强了很多,但是GPT-5依然不是一个适合代码生成的模型。它的最佳应用其实是相对独特的agent能力,灵活且“具体”,虽然它不太“聪明”,但它很适合干指令很清晰的“脏活累活”,或许勤能补拙吧。

下面是测试的具体内容。

第一个是非程序任务,恰好微软跟Nebius签了大合同,就依照我最早版本的OpenResearch(提示词流程),分别测试Claude Code、Codex Cli、Gemini Cli的输出。

执行过程,Gemini是最短的,几次web search就完成了,codex耗时是最长的,因为用了不同的工具,Claude Code却是输出信息量最大的。下面文件的大小就能看出来了。

Claude Code会想很多,但是印象中这次“降智”前并不是这样的,可能也就是为什么会在程序能力上变差的原因所在吧。同样一个问题,Gemini和Codex并没有过于展开,Claude Code却拓展了非常多。

2025-09-09-两个测试claude-code确实变怪了codex-cli还不太聪明-1i_hhj-1771985431448-5303.png

但是与之相对应的是在可视化部分,Claude Code留下了一个烂尾工程:它一开始就建好了html的架子,但是却留下大量的内容没有完成。

2025-09-09-两个测试claude-code确实变怪了codex-cli还不太聪明-1i_hhj-1771985431452-9126.png

相比之下,Gemini完整的完成了,而且内容上,该有的有了,不该乱想的也没多想。不过我们可以看到一个很明显的问题:信息重复过多。

2025-09-09-两个测试claude-code确实变怪了codex-cli还不太聪明-1i_hhj-1771985431413-4679.png

Codex就是另一种形式的信息“冗余”了:无效图表。

2025-09-09-两个测试claude-code确实变怪了codex-cli还不太聪明-1i_hhj-1771985431435-9280.png

虽然,这个问题其实很好的体现出了现在模型“过度思考”的致命缺陷:对于这样一个看起来很重要但实际上信息量很少的问题,模型显得过于“死板”。Claude Code的过度思考甚至带来了很多“幻觉”。

不过,作为工具的比较,我更看重它们的工作流程和方法,通过Gemini对三个工具的对话输出进行了一次分析。

2025-09-09-两个测试claude-code确实变怪了codex-cli还不太聪明-1i_hhj-1771985431443-4088.png

上面的表格基本上如实反映了我的感受:1. 在这样的场景下,Gemini的搜索能力又快又准;codex没有web search这样的工具,只能靠不断的curl来处理信息了,claude有search工具,而且“思考”让它看起来获得了很多信息,但是“幻觉率”一如既往的高;2. Gemini Cli指令执行是最准确的,codex更灵活,thinking过程看起来也不错。

这种非编程类任务,特别是搜索,还是gemini cli的“舒适区”。

第二个测试,以前做过,文章也写过,建一个摄影网站。提示词就是五行:

ok, polish the project to be a photographer's art website:

  1. gallery of photos;
  2. reviews of gears;
  3. blog style articles;
  4. support videos;

Gemini的表现跟上次没有变化,连“偷懒”都一模一样,就不展开了。重点是Codex和Claude Code。

Codex完成速度是最快的,一次成功,页面,怎么说呢,“审美”不太对:各种色块代表照片的占位,总是有那么点……

2025-09-09-两个测试claude-code确实变怪了codex-cli还不太聪明-1i_hhj-1771985431472-3903.png

2025-09-09-两个测试claude-code确实变怪了codex-cli还不太聪明-1i_hhj-1771985431430-7957.png

2025-09-09-两个测试claude-code确实变怪了codex-cli还不太聪明-1i_hhj-1771985431453-7329.png

上面的视频选择,也让我想起了之前测试时Gemini的结果。一模一样的选择。我会把上次的文章链接贴到最后,有兴趣的可以做一下比较。

让我大跌眼镜的是Claude:太“抽象”了。我承认它想了很多很多,但是如果要跟上一次我生成的网站相比,真的是差了太多了。

2025-09-09-两个测试claude-code确实变怪了codex-cli还不太聪明-1i_hhj-1771985431467-1339.png

2025-09-09-两个测试claude-code确实变怪了codex-cli还不太聪明-1i_hhj-1771985431422-9323.png

2025-09-09-两个测试claude-code确实变怪了codex-cli还不太聪明-1i_hhj-1771985431438-5943.png

当然,Claude Code跟上次一样的问题还是存在,就是,我使用了Astro框架,但是这个项目似乎并不理解astro框架应该有的用法,它把每一个页面都写死了,依然不是一个可以用的产品。

2025-09-09-两个测试claude-code确实变怪了codex-cli还不太聪明-1i_hhj-1771985431437-9338.png

Gemini虽然很懒,但是很“聪明”,标标准准的astro该有的用法。

2025-09-09-两个测试claude-code确实变怪了codex-cli还不太聪明-1i_hhj-1771985431451-8739.png

Codex也不错。

2025-09-09-两个测试claude-code确实变怪了codex-cli还不太聪明-1i_hhj-1771985431482-4469.png

是的,上面这两个测试,会有争议。但我依然坚持我的观点:AI Coding的重要领域就是各种工具,偏重具体的业务逻辑实现,而不是所谓“算法”。上面的测试是我认为能看出很多问题的测试。

结论:我对Claude Code的变化,非常的不适应,它甚至于让我开始对模型的未来产生了一丝担心:如果很少一部分的数据或者强化学习中细微的处理逻辑变化,就能让模型产出变化如此之大,那是不是意味着模型很长时间里都不能很好的投入到对可靠性要求高的生产环境中?

我们能很清晰的看到,在Agentic AI时代,三大模型非常显著的区别,无论外部评价如何,它们依然是模型谱系里血缘关系最远(独立性最强)的三座山峰,而其它模型,你都能从中产生明显的“一脉相承”的感觉。

最后,回到初始目的,至少在程序开发上,codex cli还不太能取代claude code。尽管增强了很多,但是 GPT-5 依然不是一个适合代码生成的模型。它的最佳应用其实是相对独特的agent能力,灵活且“具体”,虽然它不太“聪明”,但是或许勤能补拙吧。

← Back to Blog