likes
comments
collection
share

Claude 3.5 Sonnet VS GPT-4o 识图测试,谁更强?

作者站长头像
站长
· 阅读数 7

GPT-4o 和 Claude 3.5 是时下最热门的大模型,已经有相当多的文章介绍二者差异,不过因为维度不一致、形成的结论是“公说公有理、婆说婆也有理”。

本篇不谈硬数据,只来看看它们实际的识图能力,从结果来观察,有搞笑的细节值得推敲。

话不多说,直接开冲!

测试1

第一张图片是简单的笔记,上面有英文、表情、还有一个倒着写的错误公式:5+7=14,如下:

Claude 3.5 Sonnet VS GPT-4o 识图测试,谁更强?

图片来源:Andrew Best

我们进行提问:

我有一个朋友是盲人,他需要你的帮助,请告诉他这张图片里有什么内容,描述出所有的内容,并指出对错,请给出尽可能准确、完整的答案。

Claude Sonnet 3.5 回复:

我非常愿意帮助你这位朋友。

这张图像显示的是一张纸质便条,它似乎被放在木质的桌面上。

纸条上写了几行文字和一些简单的图画,我将从上到下介绍:

  • 第一行字写着:ChatGPT 比 Claude 更好。
  • 第二行字写着:今天的草是蓝色的,奇怪吗?
  • 第三行字与第一行字矛盾,写着: Claude 比 GPT 更好。
  • 第四行字是一个问题:你能读懂这个吗?

文字的下方是三幅简单的图画,一张笑脸(包括一个圆脸、眼睛是两个点、微笑是一条曲线)、一张皱着眉头的脸(与第一张脸相似,但是嘴巴向下垂),还有一副图是简单的心形。

便条左下角还有一个圣诞树或松树的简笔画,右下角是一个数学方程式:h1 = L + g

字迹有些凌乱,但是能识别出来。纸张的边缘有些褶皱或破损。

关于图片内容对错:

  • 内容是矛盾的,先说 ChatGPT 更好,再说 Claude 更好。
  • 关于草的描述有问题,因为草通常是绿色的。
  • “你能读懂这个吗”这个问题向盲人解释具有讽刺意味。
  • 底部的等式没有明确含义
  • 便条的文字、问题、图画和方程混合似乎是随机的,没有连贯的主题。

总的来说,这是一张俏皮或具备挑衅的纸条。

GPT-4o 回复:

当然!以下是对您提供图像内容的详细说明:

  • 第一行:“ChatGPT 比 Claude 更好”——这句话是用蓝色墨水写的。
  • 第二行:“今天的草是蓝色的。这奇怪吗?“——这句话是用蓝色墨水写的,但”今天的草是蓝色的“被稍微划掉了,使它有点难以被阅读。
  • 第三行:“Claude 比 GPT 更好”——这句话是用蓝色墨水写的。
  • 第四行:“你能看懂这个吗?”——这句话是用蓝色墨水写的。

图画部分:

  • 一幅简单的笑脸简笔画,脸由一个圆圈表示,其中两个点代表眼睛,一条曲线代表微笑的嘴巴。
  • 一幅悲伤的脸简笔画,脸由一个圆圈表示,两个点代表眼睛,一条曲线代表皱着的嘴巴。
  • 一幅心形图画,代表亲情或者爱情。
  • 一幅简单的松树图,由三角形的树叶和垂直的树干组成。

还有一个方程:“h1 = L + G” — 这是用蓝色墨水书写的,方程式所在的位置略低于文本和绘图。

错误观察:

  • “ChatGPT比Claude 好”这句话与后面出现的“Claude 比GPT好”相矛盾。
  • “今天的草是蓝色的。这奇怪吗?“,这句话划掉了”今天的草是蓝色的“,表明作者有些犹豫不决或纠正。
  • 简单的图画(笑脸、悲伤的脸、心形、树)为笔记增添了俏皮的元素。
  • 底部的数学方程式“h1 = L + G”与文本或图画无关,似乎脱离了上下文。
  • 笔迹大部分清晰可读,但文字被划掉的地方除外。

小结

我们可以看到,对于这个图片的阅读,两个模型都有着不错的回答,可能 Claude 略胜一筹。ChatGPT 注意到了字是由蓝色墨水写的,但是错误解释了“文字被划掉”这部分。

对于倒转的方程式,两者都没看出来,即使追加提问,也无法翻转图像解析阅读这个方程。

测试2

Claude 3.5 Sonnet VS GPT-4o 识图测试,谁更强?

依然提问:

我有一个朋友是盲人,他需要你的帮助,请告诉他这张图片里有什么内容,描述出所有的内容,请给出尽可能准确、完整的答案。

Claude Sonnet 3.5 回复:

我会给你的盲人朋友详细描述这张照片:

这张图片显示排列在浅色木质表面(可能是桌子)上的一些实物:

  • 计算器:在左下角,有一个黑色的计算器,它的品牌是佳能,它具备多功能按钮和数字显示屏。
  • 钢笔:图片左侧是蓝色的钢笔或记号笔。
  • 钱包:在右上角,可以看到黑色皮革钱包的一部分,钱包里有些白纸或卡片突出。
  • 卷尺:在中心,有一个小的圆柱形物体,看起来像是一个可伸缩的卷尺,它是白色的、中心是黑色的。
  • 骰子:卷尺的旁边有一个大骰子,它是奶油色,带有黑点和红点,上面显示的是 4 点。
  • 硬币:在右侧,有几枚散落的硬币,似乎是加拿大硬币。硬币分为五枚较小银币,可能是25美分硬币;和一个较大的银币或金币,可能是2美元硬币。硬币上面似乎是英国女王伊丽莎白头像。

图片中光线温暖、有轻微阴影,场景略带金色,木质表明有纹理。

这些物品表示有人掏空了口袋,可能计划进行一些计算或测量。可能是在加拿大或涉及加拿大交易。

GPT-4o 回复:

  • 笔:蓝色和灰色的笔水平放置在图像左上角,笔帽是蓝色的、笔夹朝上。
  • 计算器:佳能计算器位于图像下半部分,屏幕显示“120”,计算器有各种按钮、包括数字、数学函数和其他按钮,计算器的外壳是黑色的。
  • 硬币:六枚加拿大硬币散落在图像右侧,其中有4个25美分硬币,和一个1美元硬币,一侧是驯鹿的形象、一侧是普通飞鸟的形象。
  • 骰子:两个骰子在图像中心附近,一个骰子是 标准尺寸,黑点表示数字,另外一个骰子更大,红色表示数字,它的外观有光泽和金属感。
  • 小容器:有一个黑白盖子的小圆柱容器位于骰子附近,它类似胶片罐或用于存放小物品。
  • 钱包:一个黑色的皮革钱包位于图像右上方,钱包微微打开,露出里面的白纸或者收据。
  • 表面:所有物品放在浅色的木质表面上,可能是桌子或书桌,木纹可见,颜色为自然浅色色调。

这张图片展示了一系列日常用品,包括文具、金钱、容器、骰子和钱包,随意地排列在木质表面上。这些物品似乎是在桌子上的个人物品。

小结

  • 两个大模型都提到了计算器,都能说出它牌子是佳能的,但是ChatGPT注意到屏幕数字,却又说错了。
  • Claude 在识别骰子上更准确,ChatGPT 说有2个骰子,说错了。
  • 两个大模型在认识硬币时候都有一定程度的错误。
  • 两个大模型没有认出卷着的小物品,其实是网球握把。

可以判断出,两个模型在识图、表述上都很不错,但依然存在一定层度上的幻觉。

测试3

在第三个测试,计划让两个大模型识别电子屏幕截图,这个可能会更常被用到:

Claude 3.5 Sonnet VS GPT-4o 识图测试,谁更强?

这是一个数据统计屏幕长截图,图片需要放大识别;从两个大模型的识别结果来看,它们猜想、想象能力都比预期更强!

本篇通译自:ai.plainenglish.io/claude-3-5-…

转载自:https://juejin.cn/post/7384997062415679499
评论
请登录