Anthropic终于发布新模型了,那个本该在去年11月前就出来的模型,也许本来因为一些技术原因造成了延迟,也许自从OpenAI的o3发布后,就一直在憋大招。当然,也许因为Deepseek R1的发布,让Anthropic迎来了“顿悟”时刻,然后,就也有了它的思考模型。
勤奋的朋友们在发消息问我:是不是低于预期?
我早上起来后,快速尝试了几个在手的例子,然后回答:版本号叫3.7,肯定是低于预期的,因为市场预期叫做“Claude-4”。但是,实际表现进步是很明显的。
这次发布了两个3.7,一个是Claude 3.7 Sonnet,基础模型,另一个是Claude 3.7 Sonnet(64K Extend Thinking),思考模型。
正好把前几天在准备的“预测下一词”动画演示拿出来溜溜。
提示词如下:
compile an animation to illustrate why llm's secret is just to predict the next token, please include transformer, multiple attentions, using a professional theme
以下是3.5版本的。
以下是3.7版本的。

都是第一次的结果,差距是显而易见的。
有人会问,Grok-3如何?也有人会说,这个例子没代表性。
第一个问题Grok-3是不支持实时代码运行的,也就是说可以生成代码,但是必须用户自己来运行。
在这个例子下,Grok-3(发布当天的版本)生成了三个文件,标准的html,js和css。

我都保存了下来,然后通过浏览器打开index.html,然后,就没有然后了。
我把代码扔进了Claude 3.5(因为是Grok-3发布当天的测试),改了两次后。
结果如下:这个代码就是基本如实展现了Grok-3的目的,对了,这是我打开“思考”模式的结果。

第二个问题,代表性的问题,如果在一个只给简单提示词生成动画展示的实例中,还不能表明“3.7”的信息量要大很多吗?
另外,Claude的Artifacts功能出来很久了,OpenAI也加入了Canvas,Gemini也在AI Studio中支持代码运行功能。
“人类最强”模型为什么不可以呢?模型是拿来用的,AI应用的目标不就是“用户友好,门槛降低”吗?发布后就一堆bug,功能还不完善,多花点时间在真正的用户体验改进上吧。别再因为“过分沉迷游戏”(可能沉迷前要加上“找代打”)而影响了将自己的“高品位”加持到重要产品上了。
一直以来,我非常喜欢Anthropic的风格,总是认认真真的做产品,发布,实事求是,不乱叫什么“史上最强”。

评测对比,也给的清清楚楚明明白白。同时,它没有过分宣传:“思考”就是强。而是实事求是“思考模型”加强了数学和代码能力,但是在Agentic coding和Agentic tool use中,思考模型是没有得分的。
理由很简单,思考模型跟Agent是有冲突的。后面可以优化,像openai一样,但是现在的版本应该是不支持function call的,或者说不建议使用思考模型进行function call。
当然,Anthropic也耍了点小心眼:对比里没加openai的新GPT-4o。
当然,Anthropic的发布还有两个亮点,一个是Claude Code。

Claude最大优势就是写代码,所以Code这个应用很应景,我还没来得及试,但是初步感觉,Cursor的真正竞争对手来了,当然,Cursor肯定也可以第一时间支持3.7模型的。
另一个亮点,就是给了一个未来展望,路线图:我们可以看到Anthropic的“野望”。

这些,都是极致的“理工男”才能干出来的事情。
对了,Anthropic对模型界的贡献可不仅仅是发布几个模型,而是在可解释AI上做出了巨大的贡献,并且公开分享他们的发现。
那个号称“最强”的位子就坐了几天。相信,OpenAI坐不住了,那个4.5在哪里?最近最喜欢的一句话这里依然适用:这个世界,是没有奇迹的。
再贴一个3.7演示Transformer的SVG动画的一帧截图。

也看看一次过的代码的4s思考过程。

然后,又有人说,Deepseek也可以,嗯,不反驳。
但是到现在,我们可以很客观地说,Deepseek的最大意义是三条:1、让所有人看到“思考”可以用一种不同的方式实现;2、在提高训练效率和降本上做出了巨大努力;3、让国人终于知道原来这一轮AI已经可以达到这个程度了。
至于开源,AI本就应该开源的。
但是,这个世界终究没有奇迹的,投入大量算力、大量数据、大量人力脚踏实地干活的Anthropic和Google Deepmind(还有那个如果不吹牛的OpenAI)可能更有发言权。
3.7的版本号肯定大幅低于预期,但也许在目前的竞争格局下,Anthropic觉得3.7够了,也许,他们自己觉得可以拿得出手的产品不配“4”代表的代际进步的意义。
PS:如果Deep Research代表AI搜索的进步,那么Claude 3.7就是再次提高了AI程序员的天花板。这些趋势,在我去年底对今年的展望里:又到了写2025年AI领域前瞻的时刻了,两个关键词,若干个预测,一个潜在风险