点镜scrm > 点镜行业动态 > 默认分类 > 蒙娜丽莎的微笑,大模型们的“迷眼”挑战

蒙娜丽莎的微笑,大模型们的“迷眼”挑战

作者:微企 www.saaservice.cn 发布时间:2025-07-31 21:00:02


在科技飞速发展的今天,人工智能(AI)大模型似乎无所不能,从撰写文章到生成图像,它们的能力令人惊叹。然而,当面对一幅看似简单的图画时,这些大模型却纷纷“栽了跟头”。这幅图画,正是日本艺术家北冈秋吉创作的、以蒙娜丽莎为原型的视觉错位图。

这幅图的特别之处在于,当你眯着眼睛看时,会清晰地看到蒙娜丽莎的微笑;但当你睁大眼睛看时,却只能看到一系列色彩斑斓的条纹。这种视觉错位效果,对于人类来说或许是一种有趣的视觉游戏,但对于AI大模型来说,却是一场前所未有的挑战。

为了验证大模型们的表现,有人进行了一波简单实测。首先登场的是ChatGPT,它虽然能准确判断出这是一张视觉错位图,也通过“眯着眼睛”识别出了具体的脸部轮廓,但在最后关头却识别错了人。再让它深度思考一下,答案却给不出来了,似乎陷入了迷茫。

紧接着是Gemini,它的回答还停留在各种颜色的条纹上,虽然辨认出了这是个侧脸的轮廓,但却无法更进一步。而Grok则直接表示无法辨认,要求提供一张更清晰的照片。

国产大模型的表现又如何呢?豆包与Gemini类似,能够判断出图像的风格、人脸轮廓,但却无法判断具体人物。深度思考之后,它甚至从黑色轮廓中判断出了这是爱因斯坦,这显然与事实大相径庭。Qwen在完成深度思考后,发现了这是个人的侧脸剪影,但同样没有判断出画的这个人是谁。

然而,在一众模型全军覆没之际,o3-Pro却一次性回答正确。这可能与它的推理轨迹有关。与o3(非pro版)相比,o3-Pro的推理能力显然更强。有人怀疑它是不是通过搜索得出了答案,但这一猜测很快被驳回。因为o3也可以用搜索,但却无法做到这一点。而且从o3-Pro的推理摘要中看,它只有在模糊后才能看到真相,这可能是通过使用某种工具或算法实现的。

还有尝试了三次的GPT-4o,虽然最终偶然猜对了答案,但过程却充满了不确定性。网友在它第一次打错之后,就给模型提示说这是一张著名的画作,于是就莫名玩起了“海龟汤”的游戏,即通过不断提问和提示来逼近真相。

这次挑战不仅让我们看到了大模型在视觉识别方面的局限性,也引发了我们对AI能力的深入思考。虽然AI在某些方面已经超越了人类,但在面对一些看似简单的视觉问题时,它们却可能束手无策。这提醒我们,在追求AI技术发展的同时,也要保持对其能力的客观认识,不断探索和完善AI的应用场景和算法模型。

对于这次挑战感兴趣的读者,不妨亲自尝试一下,或许你能找到让大模型“眯眼”的秘诀,成为那个成功解锁蒙娜丽莎微笑的人。

联系我们

手机号码:+400-619-9527

no cache
Processed in 1.255461 Second.