Sep 3, 2025

比较几个模型对英伟达的财报分析，这是为什么我更偏好Gemini-2.5和Claude-3.7的原因

比较几个模型对英伟达的财报分析：这是为什么我更偏好 Gemini 2.5 和 Claude 3.7 的原因

全市场最重要的财报，英伟达 FY26Q1，终于发布了。

虽然有 H20 存货减值的影响，但在 NV 高超的存货与预期管理下，表现继续超预期了。市场就是这样，同样的超预期和“乐观指引”，有时候信，有时候就不信，关乎“情绪”。

这个时间点，信息过载的环境下，各种财报分析早就满天飞了：分析师们都会强调一句“超过市场预期，但是完全符合我们预期”。

在公众号里进行主观的投资分析，总是有“不合规”的嫌疑。时值一直在比较 Claude-4 和其他模型（实话说，总觉得 Claude-4 是一个有点奇怪的模型），索性就把财务分析交给这些模型了。

我用同样的提示词比较了 Claude-4-Opus，Claude-4-Sonnet，Claude-3.7-Sonnet，Gemini-2.5-Pro，GPT-o3。

提示词非常简单，就是基于英伟达的官方信息（https://nvidianews.nvidia.com/news/nvidia-announces-financial-results-for-first-quarter-fiscal-2026），生成一个富有细节的可交互的中文幻灯片。（评论区又会有声音，老是评价幻灯片生成能力，根本就是对模型的以偏概全。也许吧，但是生成幻灯片的过程，即考察模型的思考能力，又考察模型的幻觉率，当然还考察模型的代码能力，最重要的是能直接用。难道，我们真的敢让模型完全包办后端的代码吗？AI 代码改变软件工程的最重要基础不是超越多少程序员，而是它以一种“日抛型”的方式进入到各行各业的生产尤其是知识生产工作中。对了，AGI 和现在的生成式 AI，是两个东西，或许，生成式 AI 连 AGI 的必要条件都不是。所以，别低估更别神话如今的模型）。

先看 Claude-4-Opus 的截图结果（基于一些原因，我去掉了一些敏感内容，同时，基于“合规”考虑，去掉了投资建议里的评级）。

Claude-4-Opus 结果 1 Claude-4-Opus 结果 2 Claude-4-Opus 结果 3 Claude-4-Opus 结果 4 Claude-4-Opus 结果 5 Claude-4-Opus 结果 6 Claude-4-Opus 结果 7 Claude-4-Opus 结果 8 Claude-4-Opus 结果 9 Claude-4-Opus 结果 10 Claude-4-Opus 结果 11 Claude-4-Opus 结果 12

下面是 Claude-4-Sonnet 的结果（同样，我去掉了具体的投资建议部分）。

Claude-4-Sonnet 结果 1 Claude-4-Sonnet 结果 2 Claude-4-Sonnet 结果 3 Claude-4-Sonnet 结果 4 Claude-4-Sonnet 结果 5 Claude-4-Sonnet 结果 6 Claude-4-Sonnet 结果 7 Claude-4-Sonnet 结果 8 Claude-4-Sonnet 结果 9 Claude-4-Sonnet 结果 10 Claude-4-Sonnet 结果 11

第三个模型是 Claude-3.7-Sonnet（去掉敏感内容一处）。

Claude-3.7-Sonnet 结果 1 Claude-3.7-Sonnet 结果 2 Claude-3.7-Sonnet 结果 3 Claude-3.7-Sonnet 结果 4 Claude-3.7-Sonnet 结果 5 Claude-3.7-Sonnet 结果 6

就 Claude 系列的三个模型对比：Claude-4-Sonnet 作为 Claude-4-Opus 的“低配版”，显然“风格一致，细节更少”。

重点要比较的是 Claude-4-Opus 和 Claude-3.7-Sonnet：

1、如果仅从幻灯片（Slides）这个指令要求的角度出发，Claude-4-Opus 会更贴近：大小、内容和布局更符合 PPT 的要求，Claude-3.7-Sonnet 更像网页。在一些线下交流中，确实有朋友反映 Claude-3.7-Sonnet 生成的内容在投影时候看不清楚。所以，形式上的用户体验，Claude-4 确实更好；

2、但是从内容而言，Claude-3.7-Sonnet 显然包含的信息量更多，更忠实于原始素材；

3、在这个例子中，我并不喜欢 Claude-4 在最后给出了投资建议，是的，一方面可以表明它“聪明”，毕竟财务分析主要目的就是为了产生投资建议。但如果说在幻灯片的布局上 Claude-4 是“克制”的，那么这个多出来的投资建议就是“不克制”的；

4、如果再看更多的具体内容，只有 Claude-3.7-Sonnet 能把原文中关于 H20 带来的影响分析的清清楚楚：尤其是 EPS 影响，在英伟达官方信息里，给出了三个 EPS，GAAP 是 0.76，Non-GAAP 是 0.81，去除 H20 影响后的 Non-GAAP 是 0.96。作为财报里最重要的讨论因素之一，只有 Claude-3.7 进行了严格的区分和说明；

5、当然，我准备再给 Claude-4 一次机会，区分是不是因为“extended thinking”影响了模型的倾向性（其实，Claude-3.7-sonnet 也开启了 extended-thinking）。我尝试关掉这个选项再来一遍，可惜，又一次超出 limit 了。但是，我从昨天到今天仅开启了三个对话，就是上面三个，也许 Anthropic 的限制是 token 数？

限制截图

这种体验，不会让我重回 Max 订阅，而会促使我结束 Pro 订阅。

更多的主观结论留待文章最后。先快速过完另外两个模型的结果，首先是 Gemini-2.5-Pro。

Gemini-2.5-Pro 结果 1 Gemini-2.5-Pro 结果 2 Gemini-2.5-Pro 结果 3 Gemini-2.5-Pro 结果 4 Gemini-2.5-Pro 结果 5 Gemini-2.5-Pro 结果 6 Gemini-2.5-Pro 结果 7 Gemini-2.5-Pro 结果 8 Gemini-2.5-Pro 结果 9 Gemini-2.5-Pro 结果 10 Gemini-2.5-Pro 结果 11

然后是 OpenAI 的 GPT-o3。

GPT-o3 结果 1 GPT-o3 结果 2 GPT-o3 结果 3 GPT-o3 结果 4 GPT-o3 结果 5 GPT-o3 结果 6

嗯，结束了，总有种“山寨感”。

以上是五个模型的输出结果，是的，生成幻灯片只能是一个很小的测试，但如我之前所说，它其实考察了模型的多方面能力，而且很“实战”。当然“山寨感”可能更多来自于不同模型对于输出信息量倾向性的设定，至少不能作为最重要的评判指标。

谈主观感受。

个人偏好而言，我依然更喜欢 Gemini-2.5-Pro 的输出，其次是 Claude-3.7-Sonnet：Gemini-2.5-Pro 输出了表格，虽然这个表格其实在官方发布里就有了。但也正是因为这一点，更加表明了 Gemini-2.5-Pro 对用户输入的“背景材料”的“忠实度”。

Gemini-2.5-Pro 很好的控制了输出的“度”：思考就是为了更好的理解用户输入的背景材料，而不是放任自己过多的给出主观判断。虽然这个问题依然见仁见智，但是我想说，Claude-4 对我而言，是“越线”了（我们可以另外开一篇文章讨论思考的度的问题）；

Claude-3.7-Sonnet 也很好的控制了“度”，甚至除了没有输出表格外，相对于 Gemini 而言，包含了更多来自于“背景材料”的信息细节，例如一些战略合作等等。

相比之下，目前 OpenAI 于我而言，剩下的唯一价值，就是 Deep Research 了。相对于 Gemini 的 Deep Research， OpenAI 目前的结果稳定性还是要好一点点。

以上模型的结果，也基本符合我这段时间尝试与 Claude-4 模型磨合过程中的体会：有些地方确实体现出 Claude-4-Sonnet 的一次代码生成的准确率更高，但是相比 Claude-3.7-Sonnet，就是会有更多说不出的“不流畅感”。也许，就在于边界吧。

最后，确定的知道会有很多人批评：做 PPT 根本体现不了模型能力，Claude-4 明显在编码能力上更胜一筹。

首先，我们先排除受到评分表影响“纸上谈兵”的结果。

其次，可能需要思考一个问题：PPT 生成可以用于实战，直接用于一线业务环节，其他的代码生成多少是可以直接产生一线业务需要的结果的？如果答案，是为一线业务需求“造轮子”，那么， AI 时代，我们到底需要多少“造轮子”的场景？

生产力（大概率）是可以改变生产关系的。