Sep 3, 2025

快评：也许Anthropic觉得叫Claude-3.7就足够“最强”了

Anthropic终于发布新模型了，那个本该在去年11月前就出来的模型，也许本来因为一些技术原因造成了延迟，也许自从OpenAI的o3发布后，就一直在憋大招。当然，也许因为Deepseek R1的发布，让Anthropic迎来了“顿悟”时刻，然后，就也有了它的思考模型。

勤奋的朋友们在发消息问我：是不是低于预期？

我早上起来后，快速尝试了几个在手的例子，然后回答：版本号叫3.7，肯定是低于预期的，因为市场预期叫做“Claude-4”。但是，实际表现进步是很明显的。

这次发布了两个3.7，一个是Claude 3.7 Sonnet，基础模型，另一个是Claude 3.7 Sonnet（64K Extend Thinking），思考模型。

正好把前几天在准备的“预测下一词”动画演示拿出来溜溜。

提示词如下：

compile an animation to illustrate why llm's secret is just to predict the next token, please include transformer, multiple attentions, using a professional theme

以下是3.5版本的。

以下是3.7版本的。

3.7 version

都是第一次的结果，差距是显而易见的。

有人会问，Grok-3如何？也有人会说，这个例子没代表性。

第一个问题Grok-3是不支持实时代码运行的，也就是说可以生成代码，但是必须用户自己来运行。

在这个例子下，Grok-3（发布当天的版本）生成了三个文件，标准的html，js和css。

Grok-3 code

我都保存了下来，然后通过浏览器打开index.html，然后，就没有然后了。

我把代码扔进了Claude 3.5（因为是Grok-3发布当天的测试），改了两次后。

结果如下：这个代码就是基本如实展现了Grok-3的目的，对了，这是我打开“思考”模式的结果。

Claude 3.5 fix

第二个问题，代表性的问题，如果在一个只给简单提示词生成动画展示的实例中，还不能表明“3.7”的信息量要大很多吗？

另外，Claude的Artifacts功能出来很久了，OpenAI也加入了Canvas，Gemini也在AI Studio中支持代码运行功能。

“人类最强”模型为什么不可以呢？模型是拿来用的，AI应用的目标不就是“用户友好，门槛降低”吗？发布后就一堆bug，功能还不完善，多花点时间在真正的用户体验改进上吧。别再因为“过分沉迷游戏”（可能沉迷前要加上“找代打”）而影响了将自己的“高品位”加持到重要产品上了。

一直以来，我非常喜欢Anthropic的风格，总是认认真真的做产品，发布，实事求是，不乱叫什么“史上最强”。

Evaluation Comparison

评测对比，也给的清清楚楚明明白白。同时，它没有过分宣传：“思考”就是强。而是实事求是“思考模型”加强了数学和代码能力，但是在Agentic coding和Agentic tool use中，思考模型是没有得分的。

理由很简单，思考模型跟Agent是有冲突的。后面可以优化，像openai一样，但是现在的版本应该是不支持function call的，或者说不建议使用思考模型进行function call。

当然，Anthropic也耍了点小心眼：对比里没加openai的新GPT-4o。

当然，Anthropic的发布还有两个亮点，一个是Claude Code。

Claude Code

Claude最大优势就是写代码，所以Code这个应用很应景，我还没来得及试，但是初步感觉，Cursor的真正竞争对手来了，当然，Cursor肯定也可以第一时间支持3.7模型的。

另一个亮点，就是给了一个未来展望，路线图：我们可以看到Anthropic的“野望”。

Roadmap

这些，都是极致的“理工男”才能干出来的事情。

对了，Anthropic对模型界的贡献可不仅仅是发布几个模型，而是在可解释AI上做出了巨大的贡献，并且公开分享他们的发现。

那个号称“最强”的位子就坐了几天。相信，OpenAI坐不住了，那个4.5在哪里？最近最喜欢的一句话这里依然适用：这个世界，是没有奇迹的。

再贴一个3.7演示Transformer的SVG动画的一帧截图。

Transformer SVG Frame

也看看一次过的代码的4s思考过程。

Thinking Process

然后，又有人说，Deepseek也可以，嗯，不反驳。

但是到现在，我们可以很客观地说，Deepseek的最大意义是三条：1、让所有人看到“思考”可以用一种不同的方式实现；2、在提高训练效率和降本上做出了巨大努力；3、让国人终于知道原来这一轮AI已经可以达到这个程度了。

至于开源，AI本就应该开源的。

但是，这个世界终究没有奇迹的，投入大量算力、大量数据、大量人力脚踏实地干活的Anthropic和Google Deepmind（还有那个如果不吹牛的OpenAI）可能更有发言权。

3.7的版本号肯定大幅低于预期，但也许在目前的竞争格局下，Anthropic觉得3.7够了，也许，他们自己觉得可以拿得出手的产品不配“4”代表的代际进步的意义。

PS：如果Deep Research代表AI搜索的进步，那么Claude 3.7就是再次提高了AI程序员的天花板。这些趋势，在我去年底对今年的展望里：又到了写2025年AI领域前瞻的时刻了，两个关键词，若干个预测，一个潜在风险