Dec 12, 2025

GPT-5.2挺好，但Google已经在另一个维度竞争了

用了一天GPT-5.2，当然也不排除做些比较，特别是重做一些以前经常用来测试的案例。

比如，下面这张应该在GPT-5.1时就比较过。显然，显然，比5.1进步是明显的，不过风格还是比较一致的，当然，花哨也是明显更花哨了，特别是图表控件的使用，真的很顶了。

当然，做个陆家嘴的three js模型，效果也进步了很多，而且还会有影子的变化。唯一缺点，代码高估了Chrome的能力，动态效果速度太慢了。

Lujiazui 3D model

而在Codex中的表现，感觉速度快了不少，不，应该叫做执行效率高了不少。

OpenAI的宣传并没有太过夸张，效果进步是明显的，可是，总觉得哪里不对劲。

相比Gemini体系，GPT真的太单薄了，如今的Gemini可以很轻易的完成一份高质量的深度研究（最新发布的Deep Research Agent更是有了显著提升），然后，无论是在Gemini里直接输出Slides，再到Vids里一键生成视频，还是在NotebookLM里利用Nano Banana Pro生成图片式Slides，都能完成效果很好的产品闭环。当然，也可以跟我一样，在AI Studio的Build应用里快速的将Gemini-3-Pro, Nano Banana, TTS等模型整合，完成一键自动化的视频输出。

多模态到最终产品级的输出，才是更有意义的面向用户的实用性模型➕工具组合，曾经，用户体验更好是GPT系列模型的最大优势，但是当它被迫面向Coding做优化，而且只注重这一单项能力的提升时，它已经开始逐渐在“放弃”更大的用户群：要知道，虽然代码生成就是可以解决大量的问题，但更大的用户群是不会习惯于代码生成的，对于绝大多数缺乏代码能力和经验的用户而言，网站也不是一个可以较好驾驭的形式。

为了说明这一点，对于市场越来越关注的“现金流”问题发起了一次Deep Research，提示词很简单。

Deep Research prompt

当然，我们都知道，结果报告可以导出为google doc，存放在google drive中，然后在notebooklm里直接导入，然后，就是可以出音频博客，视频博客，信息图，或者，slides。

当我今天尝试的时候，slides的long模式又回来了。

Slides long mode

然后，25页的slides就可以生成了。

逐页附于文章最后。

当然，GPT-5.2的能力，可以做一个很好的交互式网站，比如，

GPT-5.2 interactive site

可这，跟Gemini相比，真不是一个维度的东西。

利用Nano Banana Pro，可以很轻易的将这些内容压缩到一张信息图里。

Infographic generation

时至今日，GPT步了Claude的后尘，离普通用户越来越远了。这就是那个不对劲的地方：GPT最早做了实时语音对话模型，Whisper依然是语音开源模型里的第一选择，去年的GPT依靠生图模型出圈，GPT最早将ChatGPT-Agent集成，配合Schedule，可以完成很多流程复杂但结果友好的workflow。在模型层面，OpenAI拥有所有可以达到Gemini系列惊艳且实用的产品效果的模型能力和储备。

可是，也许Google的生态太强了，也许OpenAI根本没有足够的资源去实现对绝大多数用户更有价值的产出工具集。

然而，AI的竞争早就在更高维度展开了，至今这个维度里只有一个玩家，Google，从Gemini-2.0开始。