Claude 3.5 Sonnet VS GPT-4o 识图测试，谁更强？

站长

2024年06月29日 12:12 · 阅读数 59

GPT-4o 和 Claude 3.5 是时下最热门的大模型，已经有相当多的文章介绍二者差异，不过因为维度不一致、形成的结论是“公说公有理、婆说婆也有理”。

本篇不谈硬数据，只来看看它们实际的识图能力，从结果来观察，有搞笑的细节值得推敲。

话不多说，直接开冲！

测试1

第一张图片是简单的笔记，上面有英文、表情、还有一个倒着写的错误公式：5+7=14，如下：

Claude 3.5 Sonnet VS GPT-4o 识图测试，谁更强？

图片来源：Andrew Best

我们进行提问：

我有一个朋友是盲人，他需要你的帮助，请告诉他这张图片里有什么内容，描述出所有的内容，并指出对错，请给出尽可能准确、完整的答案。

Claude Sonnet 3.5 回复：

我非常愿意帮助你这位朋友。

这张图像显示的是一张纸质便条，它似乎被放在木质的桌面上。

纸条上写了几行文字和一些简单的图画，我将从上到下介绍：

第一行字写着：ChatGPT 比 Claude 更好。
第二行字写着：今天的草是蓝色的，奇怪吗？
第三行字与第一行字矛盾，写着： Claude 比 GPT 更好。
第四行字是一个问题：你能读懂这个吗？

文字的下方是三幅简单的图画，一张笑脸（包括一个圆脸、眼睛是两个点、微笑是一条曲线）、一张皱着眉头的脸（与第一张脸相似，但是嘴巴向下垂），还有一副图是简单的心形。

便条左下角还有一个圣诞树或松树的简笔画，右下角是一个数学方程式：h1 = L + g

字迹有些凌乱，但是能识别出来。纸张的边缘有些褶皱或破损。

关于图片内容对错：

内容是矛盾的，先说 ChatGPT 更好，再说 Claude 更好。
关于草的描述有问题，因为草通常是绿色的。
“你能读懂这个吗”这个问题向盲人解释具有讽刺意味。
底部的等式没有明确含义
便条的文字、问题、图画和方程混合似乎是随机的，没有连贯的主题。

总的来说，这是一张俏皮或具备挑衅的纸条。

GPT-4o 回复：

当然！以下是对您提供图像内容的详细说明：

第一行：“ChatGPT 比 Claude 更好”——这句话是用蓝色墨水写的。
第二行：“今天的草是蓝色的。这奇怪吗？“——这句话是用蓝色墨水写的，但”今天的草是蓝色的“被稍微划掉了，使它有点难以被阅读。
第三行：“Claude 比 GPT 更好”——这句话是用蓝色墨水写的。
第四行：“你能看懂这个吗？”——这句话是用蓝色墨水写的。

图画部分：

一幅简单的笑脸简笔画，脸由一个圆圈表示，其中两个点代表眼睛，一条曲线代表微笑的嘴巴。
一幅悲伤的脸简笔画，脸由一个圆圈表示，两个点代表眼睛，一条曲线代表皱着的嘴巴。
一幅心形图画，代表亲情或者爱情。
一幅简单的松树图，由三角形的树叶和垂直的树干组成。

还有一个方程：“h1 = L + G” — 这是用蓝色墨水书写的，方程式所在的位置略低于文本和绘图。

错误观察：

“ChatGPT比Claude 好”这句话与后面出现的“Claude 比GPT好”相矛盾。
“今天的草是蓝色的。这奇怪吗？“，这句话划掉了”今天的草是蓝色的“，表明作者有些犹豫不决或纠正。
简单的图画（笑脸、悲伤的脸、心形、树）为笔记增添了俏皮的元素。
底部的数学方程式“h1 = L + G”与文本或图画无关，似乎脱离了上下文。
笔迹大部分清晰可读，但文字被划掉的地方除外。

小结

我们可以看到，对于这个图片的阅读，两个模型都有着不错的回答，可能 Claude 略胜一筹。ChatGPT 注意到了字是由蓝色墨水写的，但是错误解释了“文字被划掉”这部分。

对于倒转的方程式，两者都没看出来，即使追加提问，也无法翻转图像解析阅读这个方程。

测试2

Claude 3.5 Sonnet VS GPT-4o 识图测试，谁更强？

依然提问：

我有一个朋友是盲人，他需要你的帮助，请告诉他这张图片里有什么内容，描述出所有的内容，请给出尽可能准确、完整的答案。

Claude Sonnet 3.5 回复：

我会给你的盲人朋友详细描述这张照片：

这张图片显示排列在浅色木质表面（可能是桌子）上的一些实物：

计算器：在左下角，有一个黑色的计算器，它的品牌是佳能，它具备多功能按钮和数字显示屏。
钢笔：图片左侧是蓝色的钢笔或记号笔。
钱包：在右上角，可以看到黑色皮革钱包的一部分，钱包里有些白纸或卡片突出。
卷尺：在中心，有一个小的圆柱形物体，看起来像是一个可伸缩的卷尺，它是白色的、中心是黑色的。
骰子：卷尺的旁边有一个大骰子，它是奶油色，带有黑点和红点，上面显示的是 4 点。
硬币：在右侧，有几枚散落的硬币，似乎是加拿大硬币。硬币分为五枚较小银币，可能是25美分硬币；和一个较大的银币或金币，可能是2美元硬币。硬币上面似乎是英国女王伊丽莎白头像。

图片中光线温暖、有轻微阴影，场景略带金色，木质表明有纹理。

这些物品表示有人掏空了口袋，可能计划进行一些计算或测量。可能是在加拿大或涉及加拿大交易。

GPT-4o 回复：

笔：蓝色和灰色的笔水平放置在图像左上角，笔帽是蓝色的、笔夹朝上。
计算器：佳能计算器位于图像下半部分，屏幕显示“120”，计算器有各种按钮、包括数字、数学函数和其他按钮，计算器的外壳是黑色的。
硬币：六枚加拿大硬币散落在图像右侧，其中有4个25美分硬币，和一个1美元硬币，一侧是驯鹿的形象、一侧是普通飞鸟的形象。
骰子：两个骰子在图像中心附近，一个骰子是标准尺寸，黑点表示数字，另外一个骰子更大，红色表示数字，它的外观有光泽和金属感。
小容器：有一个黑白盖子的小圆柱容器位于骰子附近，它类似胶片罐或用于存放小物品。
钱包：一个黑色的皮革钱包位于图像右上方，钱包微微打开，露出里面的白纸或者收据。
表面：所有物品放在浅色的木质表面上，可能是桌子或书桌，木纹可见，颜色为自然浅色色调。

这张图片展示了一系列日常用品，包括文具、金钱、容器、骰子和钱包，随意地排列在木质表面上。这些物品似乎是在桌子上的个人物品。

小结

两个大模型都提到了计算器，都能说出它牌子是佳能的，但是ChatGPT注意到屏幕数字，却又说错了。
Claude 在识别骰子上更准确，ChatGPT 说有2个骰子，说错了。
两个大模型在认识硬币时候都有一定程度的错误。
两个大模型没有认出卷着的小物品，其实是网球握把。

可以判断出，两个模型在识图、表述上都很不错，但依然存在一定层度上的幻觉。

测试3

在第三个测试，计划让两个大模型识别电子屏幕截图，这个可能会更常被用到：

Claude 3.5 Sonnet VS GPT-4o 识图测试，谁更强？

这是一个数据统计屏幕长截图，图片需要放大识别；从两个大模型的识别结果来看，它们猜想、想象能力都比预期更强！

本篇通译自：ai.plainenglish.io/claude-3-5-…

转载自:https://juejin.cn/post/7384997062415679499

评论

请登录