AI 回答为什么一个字一个字蹦？模型幻觉的底层原因分析

2022年11月30日,一个改写历史的夜晚

那一天,OpenAI发布了一款叫ChatGPT的产品。

短短两个月,它的日活用户突破1亿,打破了TikTok保持9个月的记录,成为史上增长最快的应用。全世界都疯了——科技巨头连夜开会,创业者疯狂涌入赛道,普通人在朋友圈刷屏"见证历史"。

两年过去,国内63%的企业都在做大模型应用。文心一言、通义千问、豆包、混元……这些名字你可能都听过。AI聊天助手像雨后春笋般冒出来,从写文案、做翻译到写代码、分析数据,AI似乎无所不能。

但有一个问题始终困扰着普通人:这些AI到底是怎么工作的?

你可能也有过这样的体验:问AI一个问题,它的回答一个字一个字地蹦出来,就像有个人在屏幕那头打字。你觉得很神奇,但又说不清这背后到底发生了什么。

今天,我们就来揭开这层神秘面纱,用10分钟时间,把AI大模型的底层逻辑讲清楚。

一、AI为什么一个字一个字往外蹦?

原来是在玩"接龙游戏"

你有没有注意到,当你问ChatGPT问题时,它的回答不是瞬间全部显示,而是像打字员一样,一个词一个词地往外蹦?

很多人以为这是为了营造"高级感",让你觉得AI在"思考"。其实不是——这就是AI工作的本质方式。

大语言模型(LLM)的工作原理说穿了很简单:根据上下文,预测下一个词是什么。

就像你小时候玩的成语接龙游戏——我说"见",你接"见多识广",然后下一个人接"广阔天地"……AI也是这样,一个词一个词地"接"出完整的回答。

举个例子:

当你输入"今天天气很",AI会根据它学过的海量文本,推测出下一个字最可能是"好"。然后它把"好"加到原来的句子里,变成"今天天气很好"。

接着,AI再基于这个新句子,继续预测下一个词——可能是"啊"、“呢"或者"晴朗”。就这样,一个词接一个词,最终生成了你看到的那段回答。

Token:AI眼中的"最小单位"

但AI并不是直接处理"字"或"词",而是先把文本切成一个个Token。

Token是什么?你可以把它理解成AI处理文本的"最小单位"。一个Token可能是一个汉字、一个英文单词,甚至是半个词或一个符号。

比如"你好世界"会被切成三个Token:[“你”、“好”、“世界”]。而英文句子"I like bananas"可能被切成:[“I”、" like"、" ban"、“anas”]——注意,有些词会被拆开。

划重点:大模型的工作就是不断预测"下一个Token是什么",然后把它拼接起来,形成完整的文本。

这就是为什么你看到的AI回答,是一点点"蹦"出来的——因为它真的是在一个Token一个Token地生成。

二、从小白到专家:大模型的三次蜕变

现在你知道了AI"会说话"的秘密,但一个新问题来了:它怎么学会这个技能的?

答案是:经历了三个阶段的"修炼"——预训练、微调、推理。

第一阶段:预训练——海量阅读变学霸

想象一个刚出生的婴儿,它对这个世界一无所知。要让它学会说话、理解语言,第一步是什么?让它大量接触语言环境。

AI的预训练就是这个道理。工程师会让它"读"遍互联网上的海量文本——书籍、新闻、论文、维基百科、社交媒体……所有能找到的文字数据。

以GPT-3为例,它的预训练数据包括:

Common Crawl(网络爬虫数据集)
学术论文库
互联网书籍
维基百科
……

总共用了3000亿个Token进行训练。你可以想象这个数据量有多恐怖——相当于让AI"读"了整个互联网的书。

而且,这个过程采用的是无监督学习,也就是说,没有人告诉AI"这段话是在讲什么"、“这个词是什么意思”,AI完全靠自己摸索,从海量文本中学会语法、语义和各种知识。

监督学习 vs 无监督学习:汤姆猫和杰瑞鼠的故事

这里插一个知识点,帮你理解这两种学习方式的区别。

监督学习:就像老师教你认猫认鼠,每张图片都有标签——“这是汤姆猫”、“这是杰瑞鼠”。你看多了,就知道以后看到类似的图片该叫什么名字。

无监督学习:没有老师告诉你答案,你只能自己观察。你发现有些图片的动物有胡须、尖耳朵,于是你把它们归为一类;另一些动物体型小、尾巴长,又是一类。虽然你不知道它们叫什么,但你能分辨它们属于不同的"种族"。

预训练就是无监督学习——AI从海量文本中自己总结规律,学会"下一个词大概率是什么"。

这个阶段结束后,我们得到一个基座模型(Base Model)——它已经掌握了人类语言的基本规律,但还不会"好好说话"。

第二阶段:微调——专业训练变专家

基座模型就像一个博览群书的学霸,知识储备丰富,但不知道怎么跟人对话。如果你问它"湖南的省会是哪里?“,它可能直接回答"长沙”,而不是礼貌地说"湖南的省会是长沙,这是一座充满活力的城市"。

所以,我们需要对它进行微调(Fine-tuning),教它"如何像个助手一样回答问题"。

微调采用的是监督学习——工程师会准备大量高质量的对话数据,比如:

问:“今天天气怎么样?”→答:“今天天气晴朗,气温适中,适合外出活动。”
问:“如何学习Python?”→答:“学习Python可以从基础语法开始,推荐您先学习……”

AI通过模仿这些"示范对话",逐渐学会了如何友好、专业地回答问题。

有趣的是,微调所需的数据量远远小于预训练。著名的OpenAssistant对话数据集,只有16万条对话(中文对话还不到5000条),但已经足够让AI"学会说人话"了。

第三阶段:推理——实战应用

经过预训练和微调,AI终于可以"上岗"了。当你向它提问时,它就会启动推理(Inference)过程——根据你的问题,一步步预测Token,生成回答。

推理过程不再改变AI的"内功"(参数),而是调动它学到的所有知识,完成你交给它的任务。

划重点:预训练让AI"读万卷书",微调让AI"学会做人",推理让AI"实战应用"。

三、概率游戏:AI的"水晶球"

现在你知道了AI是通过预测"下一个Token"来生成文本的,但它是怎么预测的呢?答案是:概率。

一张5×5的表格,藏着AI的秘密

假设我们有这样三句训练数据:

I like apples
I like bananas
You like bananas

AI会根据这些数据,构建一个概率表格,记录"某个词后面跟着某个词的次数"。

比如:"I"后面跟"like"出现了2次,"like"后面跟"apples"出现了1次,跟"bananas"出现了2次。

然后,AI会把这些次数转化为概率:

"like"后面跟"apples"的概率是33.3%
"like"后面跟"bananas"的概率是66.7%

所以,当你输入"I like",AI会优先选择概率更高的"bananas",生成"I like bananas"。

为什么AI会"一本正经胡说八道"?

你可能遇到过这种情况:问AI一个问题,它回答得头头是道,语法完美,逻辑流畅,但仔细一看——全是胡扯!

这就是著名的"幻觉"(Hallucination)问题。为什么会这样?

因为AI本质上不理解文字的真实含义,它只是根据概率模型生成"看起来合理"的文本。

就像你玩填空题,根据上下文猜答案——“小明考试得了第一名,他很_____”,你会填"高兴"。但如果题目是"小明考试得了第一名,他很难过",虽然不符合常识,但从语法上讲完全没问题。

AI也是这样——它会生成语法正确、逻辑流畅的句子,但不一定符合客观事实。这就是为什么早期的AI经常"一本正经胡说八道"。

当然,随着模型越来越大、训练数据越来越多,这种低级错误已经大幅减少了。

四、向量空间:AI的"分类柜"

现在你可能会问:AI怎么知道"苹果"和"香蕉"都是水果,而不是跟"汽车"一类的呢?

答案藏在一个叫向量嵌入(Vector Embedding)的技术里。

把文字变成一串数字

计算机无法直接理解文字,所以AI会先把每个Token转化成一串数字,这就是向量。

比如,"苹果"可能被转化成:0.8, 0.2, 0.9, ……。

这串数字不是随便生成的,而是通过训练"学"出来的——相似的词,对应的向量在空间中距离更近;不相似的词,距离更远。

超市货架的秘密

想象一个三维空间,每个词都是空间中的一个点。AI会把"苹果"、“香蕉”、“橙子"这些水果聚在一起,因为它们的向量很接近;而"汽车”、"飞机"这些交通工具会在另一个区域聚集。

就像超市的货架——水果区都是水果,家电区都是家电。AI通过计算向量之间的"距离",就能判断两个词是否相似。

这也是为什么AI能理解"苹果"有两个意思——"水果苹果"的向量和"科技公司苹果"的向量,在空间中的位置是完全不同的。

划重点:向量嵌入让AI拥有了"分类"和"理解语义"的能力。

五、Transformer:AI的"火眼金睛"

最后一个问题:AI怎么知道一句话里,哪些词更重要,哪些词可以忽略?

比如这句话:“动物没有过马路,因为它太累了。”

这里的"它"指的是"动物"还是"马路"?人类一眼就能看出来,但AI怎么知道的呢?

答案是:一个叫Transformer的架构,它赋予了AI一双"火眼金睛"。

96层"注意力机制",让AI读懂上下文

Transformer的核心是自注意力机制(Self-Attention)——AI在处理每个词时,会"扫视"整个句子,计算这个词和其他词的相关性。

就像你做阅读理解题,看到"它"这个代词时,大脑会自动往前回溯,找到最相关的那个词。

Transformer就是这样——它会给每个词和其他词之间标注一个"关联权重":

"它"和"动物"的关联权重很高(因为语义上密切相关)
"它"和"马路"的关联权重很低(因为关系不大)

更厉害的是,AI不是只看一遍,而是通过多层并行计算来深度理解——比如GPT-3有96层Transformer,每一层关注的东西都不一样:

前几层关注语法结构
中间层关注词语关系
后面层理解整体语义和情感

就像你读一本小说,第一遍看情节,第二遍品人物,第三遍悟主题——AI也是这样"多遍精读",最终理解得透透的。

划重点:Transformer让AI从"机械匹配关键词"进化到"真正理解上下文"。

写在最后:揭开魔术的面纱

看到这里,你是不是觉得AI没那么神秘了?

它不是什么"黑科技",更不是"有灵魂的生命"——它就是一个通过海量数据训练出来的"超级概率计算器",擅长根据上下文预测下一个词。

当然,这个"计算器"已经强大到让人惊叹:

它能写诗、写代码、做翻译
它能分析数据、回答问题、提供建议
它甚至能在某些领域超越人类专家

但归根结底,它的本质就是:接龙游戏 + 概率预测 + 向量分类 + 注意力机制。

理解这些原理,不是为了让你变成AI工程师,而是让你在使用这些工具时,心里有底——知道它的能力边界在哪里,知道它为什么会犯错,知道如何更好地"驾驭"它。

毕竟,在这个AI狂飙的时代,与其被技术吓倒,不如看懂它、用好它。

下次当你看到AI一个字一个字地"蹦"出回答时,你可以微微一笑:

嗯,我知道你在玩接龙游戏。