为什么最强AI也数不清手指？多模态模型的致命缺陷

一道送分题,让全球AI集体翻车

我给你出道题:这张图片里有几根手指?

如果你数出了6根,恭喜你,智商已经超越地球上所有的AI。

不信?我拿这张图片问了一圈:ChatGPT、DeepSeek、豆包……这些大名鼎鼎的AI模型,几乎全都信誓旦旦地回答:5根手指。

而且它们还会煞有介事地给你分析一番:“从左到右依次是大拇指、食指、中指、无名指、小拇指”,一副专家鉴定的架势。

更离谱的还在后面。

当我和ChatGPT讨论完"你为什么数错了"之后,再给它发一张正常的5根手指照片,它居然回答:6根手指。

这是什么操作?难道AI也会"一朝被蛇咬,十年怕井绳"?

后来我发现,原来是ChatGPT的记忆功能在作祟——它把之前的错误当成了"经验教训",结果越改越离谱。关掉记忆功能后,它才恢复正常。

但这暴露了一个更严重的问题:AI不仅数不清手指,还极容易被一点点上下文信息干扰。

GPT-5也没能幸免

你可能会说:这些都是老模型,最新的GPT-5总该行了吧?

我专门切了个账号测试了一下,结果——GPT-5居然答对了!

"哈!不愧是地表最强模型!"我心想。

然后我又发了张8根手指的图片……它又对了。

再发一张正常5根手指的图片……还是对的!

等等,这剧情不对啊。难道GPT-5真的解决了这个问题?

仔细一想,可能是因为"AI数不清手指"这个话题最近讨论太多,相关数据被过度训练了。这就像考前刷题刷到了原题——不是真懂,只是背过答案。

为了验证,我换了些不常见的手部姿势,GPT-5立刻露馅了。

结论:从ChatGPT到DeepSeek,从豆包到GPT-5,没有一个能稳定通过"数手指"这道人类幼儿园水平的题目。

这背后一定有某种底层机制的问题。

揭秘:AI是如何"看"图片的?

要理解为什么AI数不清手指,我们得先搞清楚:AI到底是怎么处理图片的?

第一步:拆解多模态模型

所谓"多模态模型",就是能同时处理不同类型信息(文字、图片、声音等)的AI。

比如你给AI发了张照片+一段文字问题,它能理解图片内容并用文字回答你。看起来很神奇,但本质上,这个过程可以简化成:

输入: 图片 + 文字
输出: 文字

关键问题来了:图片和文字是完全不同的东西,AI怎么把它们放在一起处理?

第二步:把一切变成向量

AI的解决方案很简单粗暴:把所有东西都转换成向量(一串数字),然后统一处理。

文字处理:

先把句子拆成词(tokenization)
每个词转换成一个向量
喂给大语言模型,输出概率分布
一个词一个词地生成回复

这个流程在大语言模型里已经非常成熟了。

图片处理:

用CNN或ViT等图像编码器
把图片转换成一组向量
每个向量代表图片的某种特征

看起来很美好:文字有向量,图片也有向量,直接拼起来不就行了?

但问题是:这两种向量根本"说不同的语言"!

第三步:模态对齐——让向量"学同一种语言"

在大语言模型的向量空间里,"男人"和"女人"的向量是相似的,因为它们语义相关。

但图像编码器生成的向量,是在完全不同的向量空间里训练出来的。一张狗的照片转换成的向量,可能跟"狗"这个词的向量八竿子打不着。

这就像把中文和英文直接拼在一起——AI看着一脸懵逼。

所以必须有一个步骤,叫做“模态对齐”(Modality Alignment):让图片向量和文字向量在同一个语义空间里对应起来。

怎么做呢?

CLIP:400万张图教会AI"看图说话"

OpenAI提出的CLIP模型,用了一个巧妙的方法:

1. 收集海量数据

从网上爬取4亿对"图片+文字描述"
比如一张狗的照片配文字"一只金毛在草地上奔跑"

2. 分别编码

图片通过图像编码器→图像向量
文字通过文本编码器→文本向量

3. 对比学习(Contrastive Learning)

计算所有图像向量和文本向量的相似度
匹配的图文对(正样本):让它们的向量尽可能相似
不匹配的图文对(负样本):让它们的向量尽可能不同

4. 海量训练

用592个V100 GPU
训练18天
完成模态对齐

训练完成后,一张狗的照片转换成的向量,就会和"狗"这个词的向量非常接近了。

于是,图片和文字终于可以"对话"了。

问题的根源:从图像到文字的"翻译损失"

现在我们可以回答开头的问题了:为什么AI数不清手指?

核心原因:多模态模型处理图片的方式,本质上是先把图片"翻译"成文字描述,然后基于文字进行推理。

经过图像编码器和模态对齐后,图片保留的只是语义级别的信息——“这是一只手”、“手指朝上”、“皮肤是肉色”……

但视觉细节,比如"到底有几根手指"、“手指的具体位置”、“指甲的形状”,这些信息在转换过程中就丢失了。

这就像你用中文描述一幅画,然后让只懂英文的人根据你的英文翻译来回答画的细节——翻译过程中必然有信息损耗。

一个小游戏:你能描述清楚吗?

为了让你亲身体验这种困难,我们来做个实验。

这里有一张非常简单的图片(比如一个几何图形组合)。

请你用文字描述这张图片,任意多字都行。

描述完之后,我问你几个问题:

左上角的圆圈和右下角的三角形,哪个面积更大?
正方形的边长是圆圈直径的几倍?
三角形的顶点和圆心的连线,与水平线的夹角是多少度?

你会发现:基于你的文字描述,这些问题根本答不出来!

这就是AI面临的困境——它被迫用文字描述来"看"图片,自然丢失了大量视觉细节。

为什么文本模型擅长推理,却不擅长数手指?

有意思的地方来了。

大语言模型在文字推理上极其强大:

总结归纳:提取长文档的核心观点
逻辑推理:根据前提推导结论
文字游戏:理解双关语、成语接龙

甚至在很多推理题上,AI的表现已经超过了人类。

但为什么一到"数手指"这种视觉任务,就立刻翻车?

答案很简单:因为大语言模型的训练基础是文本,而文本本身就是人类思维的"二次加工产品"。

想象一下:

你看到一只狗
你的大脑形成对狗的认知(视觉、听觉、触觉的综合感受)
你用语言描述:“一只金毛在草地上奔跑”

文字是第3步的产物,已经经过了大脑的抽象和总结。

AI基于海量文本训练,学会的是"人类如何用文字表达思维",而不是"人类如何直接感知世界"。

所以:

✅ 文字推理:AI很擅长,因为这就是它的训练基础
❌ 视觉细节:AI很弱,因为它只能通过"文字描述"间接理解图片

CLIP论文也承认了这个局限

在CLIP的论文里,研究者明确指出了这个问题:

即使用4亿图文对训练,CLIP在MNIST手写数字识别任务上的准确率,还不如最简单的逻辑回归模型。

MNIST是什么?就是识别0-9这10个手写数字,是深度学习领域的"Hello World"。

连这么简单的任务都做不好,说明这种"图像→文字→推理"的范式,天生就有缺陷。

能解决吗?技术上可以,但……

你可能会问:既然知道问题在哪儿,能不能针对性地解决?

技术上完全可以。

比如用YOLO这种目标检测模型:

准确识别手指
精确标注每根手指的位置
轻松数清有几根

但这只是解决了单一任务。

真正的挑战是:如何把这种能力整合进通用的多模态模型?

目前的多模态模型追求的是"泛化能力"——能处理各种图片、回答各种问题。如果要让它像YOLO一样精确识别视觉细节,就需要:

重新设计模型架构
收集更细粒度的训练数据
大幅增加计算成本

这是完全不同维度的工程挑战。

未来:基于"思维"而非"文本"的AI?

视频的最后,作者提出了一个脑洞大开的想法:

如果AI不再基于文本训练,而是基于人类思维训练,会怎样?

这个想法听起来科幻,但值得思考。

目前的范式:

人类感知世界
人类用文字描述感知
AI基于文字学习

这个流程里,文字是中介,也是瓶颈。

如果能跳过这个中介:

人类感知世界
AI直接学习人类的感知过程
形成"多模态原生"的理解

那么图片、声音、触觉……所有感知信息都在同一个"思维空间"里表示,不再需要"翻译"。

但问题是:人类思维到底是什么?

这又回到了哲学和神经科学的根本问题。我们用文本模型去理解人类思维,本身就是循环论证。

或许这正是AI发展的下一个大瓶颈。

结语:保持平衡的视角

通过"AI数不清手指"这个小问题,我们揭开了多模态模型的底层逻辑:

核心机制:

图像→向量(编码)
文本→向量(编码)
模态对齐(让两种向量"说同一种语言")
基于文本语义空间进行推理

固有局限:

视觉细节在转换中丢失
本质上是"图像→文字→推理"的间接路径
擅长语义理解,不擅长精确识别

这并不意味着AI很"蠢",而是说明:不同任务需要不同的技术方案。

AI的长处:

✅ 文本总结与生成
✅ 逻辑推理与规划
✅ 模式识别与预测
✅ 大规模信息处理

AI的短板:

❌ 视觉细节识别
❌ 物理常识推理
❌ 长期记忆与一致性
❌ 真正的"理解"

认识到这些,我们才能更好地使用AI,而不是盲目崇拜或全盘否定。

当你看到AI考试得高分,不要以为人类要完蛋了;当你看到AI数不清手指,也不要觉得AI都是傻子。

技术有边界,认知有局限,这才是真实的世界。