Claude3发布,国内外六款模型实战能力测试

Claude3发布,国内外六款模型实战能力测试


Claude 3 发布:国内外六款模型实战能力评测

昨晚,Claude 3 发布,我简单测试了 Sonnet 模型的能力。今天在订阅 Claude 3 Pro 后,解锁了在测试榜上全面超越 GPT-4 的 Opus 模型。本来只准备跟 GPT-4 和 Gemini 比较,但想了一下,还是加入了智谱 GLM4、讯飞星火和文心一言 4.0。我精选了八个例子,多数与生产力直接相关,对六个模型进行全面评测。

评测顺序均为:Claude 3、Gemini、GPT-4、智谱 GLM4、讯飞星火、文心一言 4.0。出于各种考虑,在本公开版本中,部分模型只贴结果,不打分。

热身篇:图片理解

问题一

这是微软关于 GPT-4 多模态模型完整测试论文里的一个例子。在 GPT-4 多模态和 Gemini (Bard) 发布后,我们曾跑过对比,当时两个模型都对了。我以为这是一个热身项目。

问题: 请回答图片中的问题(需要模型准确识别问题并给出正确答案)。

当时,GPT-4 和 Gemini (Bard) 的回答如下:

历史回答

Claude 3: 回答没有任何问题。10分

Claude 3 回答

Gemini Ultra 1.0: 翻车了。问题识别正确,但答案在一本正经地胡说八道。这可以称为“幻觉”(hallucinations),或者按照辛顿的说法,“记忆错误”(confabulations),错得很自信。鉴于问题识别正确,4分

Gemini 回答

GPT-4: 也翻车了。连问题都识别错了,但如果按它识别出的问题来回答,答案倒是对了。也给 4分 吧。

GPT-4 回答

智谱 GLM4: 问题识别错误,剩下的回答与图片识别没太大关系了。

GLM4 回答

讯飞星火: 显然问题识别错误,但提到了灰猫,算对了一部分。

讯飞星火回答

百度文心一言 4.0: 我不喜欢百度的交互。每次都要手动选择“说图解画”插件,且操作分为上传和提问两步。百度是国产模型中唯一识别正确问题的,但回答错误。与 Gemini 和 GPT-4 相比稍逊一筹。

文心一言回答

小结: 这考验模型的 OCR 和推理能力。Claude 3 满分;GPT-4、Gemini 和文心一言 4 的 OCR 其实是正确的,但语言模型部分可能被“带跑”了。百度的 OCR 积累确实不错。

问题二:数苹果

之前测试过,上次 GPT-4 正确,Gemini 错误。

数苹果测试图

Claude 3: 答案错误,但想象力丰富,发现了一些细节。4分

Claude 3 回答

Gemini Ultra: 错误。甚至动用了搜索,原因不明。3分

Gemini 回答

GPT-4: 再次翻车。这次试了多次,结果都是错的(6个或8个)。由于问题识别准确,2分

GPT-4 回答

智谱 GLM4: 干净利落的正确。

GLM4 回答

讯飞星火: 错误,一直回答 8 个。

讯飞星火回答

文心一言 4.0: 正确且完美的回答,展现了丰富的“想象力”。

文心一言回答

总结: 海外模型全错,国产模型三对二。

中级篇:文档理解

问题三:纯文字表格输出

表格摘自微软 Sora 研究论文,包含 45 行、5 列文生视频模型信息。

Sora 表格

Claude 3: 完全正确。瑕疵是用中文提问但返回全英文。10分

Claude 3 回答

Gemini Ultra: 表现惊艳。不仅翻译准确,还有两个亮点:1. 提供“Export to Sheet”按钮;2. 自动添加了一列正确的官网/论文链接(虽因 token 限制导致返回不完整)。10分+2分

Gemini 回答 Gemini 链接

GPT-4: 正确,全英文。10分

GPT-4 回答

智谱 GLM4: 在 32 行断掉,返回英文。

GLM4 回答

讯飞星火: 截图不完整(长图插件问题),且存在错格。

讯飞星火回答

文心一言 4.0: 遗漏两个,且发生错位。

文心一言回答

问题四:财务报表输出

截取自某公司财报,涉及大量数字,难度更高。

财报测试图

Claude 3: 除了日期是“想象”的,数字完全正确。10分

Claude 3 回答

Gemini Ultra: 最后一行识别错误且错位,这在财务数据中是致命的。5分

Gemini 回答

GPT-4: 交白卷。由于 Tesseract OCR 模块报错,多次尝试均失败。0分

GPT-4 回答

智谱 GLM4: 正确数字非常少。

GLM4 回答

讯飞星火: 各种错误,但比 GLM4 好一点。

讯飞星火回答

文心一言 4.0: 错误较多,略优于讯飞。

文心一言回答

进阶篇:知识提取

问题五:识别架构图并解释

识别 Sora 的基本架构图。

Sora 架构图

Claude 3: 回答非常好。9分

Claude 3 回答

Gemini Ultra: 识别无误,但理解深度略逊。7分

Gemini 回答

GPT-4: 典型的、高质量的回答。10分

GPT-4 回答

智谱 GLM4: 误将编码器识别为两个解码器,内容过于简略。

GLM4 回答

讯飞星火: 结果挺完整,比 Gemini 强一点。

讯飞星火回答

文心一言 4.0: 与讯飞水平相当。

文心一言回答

进阶篇:简单程序

问题六:读 Scratch 图片并转为代码

Scratch 图片

Claude 3: 代码没问题,细微瑕疵是保留了多余赋值语句。9分

Claude 3 回答

Gemini Ultra: 仅给出了直译结果,未生成可运行代码。6分

Gemini 回答

GPT-4: 满分表现。逻辑正确,删除了冗余,并直接运行出了结果。10分

GPT-4 回答

智谱 GLM4: 边界条件错误(<=9 变成 <9)。

GLM4 回答

讯飞星火: 识别出是 Scratch,但函数逻辑错误。

讯飞星火回答

文心一言 4.0: 回答完全不着边际。

文心一言回答

高级篇:数据分析

问题七:读图分析

这是八题中最难的一题。

数据图表

Claude 3: 数据部分全错。3分

Claude 3 回答

Gemini Ultra: 2分

Gemini 回答

GPT-4: 数据对应错误。3分

GPT-4 回答

智谱 GLM4/讯飞/文心: 表现均不理想。

GLM4 回答 讯飞回答 文心回答

真正生产力篇:img2code

问题八:参照下图生成页面代码

Dashboard 原图

Claude 3: 为其风险意识点赞。使用公开数据后生成的 d3.js 代码初看没问题。8分

Claude 3 过程

<!DOCTYPE html>
<html>
<head>
<title>美国各州人口数据仪表盘</title>
<script src="https://d3js.org/d3.v6.min.js"></script>
<style>
.state { fill: #ccc; stroke: #fff; stroke-width: 1px; }
.state:hover { fill: #ff0; }
.bar { fill: steelblue; }
.bar:hover { fill: brown; }
</style>
</head>
<body>
<h1>美国各州人口数据仪表盘</h1>
<div>选择一个州: <select id="stateSelect"><option value="">-- 选择州 --</option></select></div>
<div id="map"></div>
<div id="chart"></div>
<script>
// 代码逻辑省略...
</script>
</body>
</html>

Gemini Ultra: 搜索集成度极高,链接真实有效。10分

import plotly.express as px
import pandas as pd
# 读取医院数据
hospitals = pd.read_csv("https://www.medicare.gov/basics/costs/medicare-costs")
# ... 逻辑代码 ...
fig.show()

GPT-4: 代码质量极高,仅欠缺一点搜索能力。9分

智谱/讯飞/文心: 能力较弱。其中讯飞生成的包含大量重复的无意义文本(如 Privacy Policy...)。

GLM4 辩护

结论

结果: Claude 3 确实超越了 GPT-4 (63分),Gemini Ultra 与 GPT-4 相当 (49 vs 48)。国产模型仍有差距,文心一言 4.0 表现略好。

评分表

观点:

  1. Gemini 展示了类似于 AlphaZero 的“自我成长”潜力,虽目前知识理解尚有欠缺,但天赋异禀。
  2. Claude 3 暂不支持搜索,制约了生产环境下的表现。
  3. 国产模型应少些营销,多在数据质量上下功夫。
  4. GPT-4 似乎有变差迹象,稳定性值得怀疑。
← Back to Blog