GPT-5.2挺好,但Google已经在另一个维度竞争了

GPT-5.2挺好,但Google已经在另一个维度竞争了


用了一天GPT-5.2,当然也不排除做些比较,特别是重做一些以前经常用来测试的案例。

比如,下面这张应该在GPT-5.1时就比较过。显然,显然,比5.1进步是明显的,不过风格还是比较一致的,当然,花哨也是明显更花哨了,特别是图表控件的使用,真的很顶了。

当然,做个陆家嘴的three js模型,效果也进步了很多,而且还会有影子的变化。唯一缺点,代码高估了Chrome的能力,动态效果速度太慢了。

Lujiazui 3D model

而在Codex中的表现,感觉速度快了不少,不,应该叫做执行效率高了不少。

OpenAI的宣传并没有太过夸张,效果进步是明显的,可是,总觉得哪里不对劲。

相比Gemini体系,GPT真的太单薄了,如今的Gemini可以很轻易的完成一份高质量的深度研究(最新发布的Deep Research Agent更是有了显著提升),然后,无论是在Gemini里直接输出Slides,再到Vids里一键生成视频,还是在NotebookLM里利用Nano Banana Pro生成图片式Slides,都能完成效果很好的产品闭环。当然,也可以跟我一样,在AI Studio的Build应用里快速的将Gemini-3-Pro, Nano Banana, TTS等模型整合,完成一键自动化的视频输出。

多模态到最终产品级的输出,才是更有意义的面向用户的实用性模型➕工具组合,曾经,用户体验更好是GPT系列模型的最大优势,但是当它被迫面向Coding做优化,而且只注重这一单项能力的提升时,它已经开始逐渐在“放弃”更大的用户群:要知道,虽然代码生成就是可以解决大量的问题,但更大的用户群是不会习惯于代码生成的,对于绝大多数缺乏代码能力和经验的用户而言,网站也不是一个可以较好驾驭的形式。

为了说明这一点,对于市场越来越关注的“现金流”问题发起了一次Deep Research,提示词很简单。

Deep Research prompt

当然,我们都知道,结果报告可以导出为google doc,存放在google drive中,然后在notebooklm里直接导入,然后,就是可以出音频博客,视频博客,信息图,或者,slides。

当我今天尝试的时候,slides的long模式又回来了。

Slides long mode

然后,25页的slides就可以生成了。

逐页附于文章最后。

当然,GPT-5.2的能力,可以做一个很好的交互式网站,比如,

GPT-5.2 interactive site

可这,跟Gemini相比,真不是一个维度的东西。

利用Nano Banana Pro,可以很轻易的将这些内容压缩到一张信息图里。

Infographic generation

时至今日,GPT步了Claude的后尘,离普通用户越来越远了。这就是那个不对劲的地方:GPT最早做了实时语音对话模型,Whisper依然是语音开源模型里的第一选择,去年的GPT依靠生图模型出圈,GPT最早将ChatGPT-Agent集成,配合Schedule,可以完成很多流程复杂但结果友好的workflow。在模型层面,OpenAI拥有所有可以达到Gemini系列惊艳且实用的产品效果的模型能力和储备。

可是,也许Google的生态太强了,也许OpenAI根本没有足够的资源去实现对绝大多数用户更有价值的产出工具集。

然而,AI的竞争早就在更高维度展开了,至今这个维度里只有一个玩家,Google,从Gemini-2.0开始。

Slide 1 Slide 2 Slide 3 Slide 4 Slide 5 Slide 6 Slide 7 Slide 8 Slide 9 Slide 10 Slide 11 Slide 12 Slide 13 Slide 14 Slide 15 Slide 16 Slide 17 Slide 18 Slide 19 Slide 20 Slide 21 Slide 22 Slide 23 Slide 24 Slide 25

← Back to Blog