我们在跟大模型对话、给大模型发文档、发图片、音视频时，为什么大模型能够“听懂、看到”我们给他的东西呢？

首先，要纠正一个错误认知——大模型会思考。

当前大模型并不会思考，它只是学习、理解、输出和检验，在输出和校验直接反复执行，直到输出用户满意的内容。这个阶段就好像是“像人一样思考”，其实是模拟出来的结果。

多模态大模型工作流程可以简化为：

文本、图像、音频、视频都会被编码为同一套 Token 序列，用 Transformer 统一建模。

是不是有点难懂？我们以例子来说明：

你不管：只发文字、只发图片、发【文字 + 图片】、发语音、发视频

在新一代多模态大模型里：

所有你发的东西

先翻译成同一套 “通用密码块”（= 同一套 Token）

交给同一个大脑（= 同一个 Transformer）去看、去理解、去想

这个大脑输出的还是同一套 “通用密码块”，再翻回文字 / 图片 / 音频 / 视频给你。

比如：你给 AI 同时发【文字 + 图片】，让它生成【视频 + 配音】

上传一张图片：一张马年福字照片

输入一段文字：“帮我用这张福字，做一个 10 秒拜年小视频，配一句‘马年大吉，新春快乐’的语音”

然后点【发送】

这时候大模型后台会有以下操作：

第一步：编码成【同一套 Token】

1）你的文字 → 转成 Token

“帮我用这张福字，做一个 10 秒拜年小视频，配一句‘马年大吉，新春快乐’的语音”→ 切成一串通用 Token（比如编号表示）：[T1, T2, T3, ..., T20]

2）你的图片（马年福字）→ 也转成同一套 Token

图片不特殊处理，不进单独图片模型，直接切成小像素块 → 编码成和上面文字同一种格式、同一套编号体系的 Token：[I101, I102, I103, ..., I150]

文字 Token、图片 Token，是同一套语言、同一套编号规则

不是 “文字一套、图片另一套”，是通用 Token

模型把它们拼成长长一串：[T1, T2, ..., T20, I101, I102, ..., I150]

这就是：文本、图像编码为同一套 Token 序列

第二步：统一建模

这里没有：文本模型、图像模型、多模型拼接

只有一个 Transformer 模型。

它拿到上面那一长串混合 Token：

它不管哪个原来是文字、哪个原来是图片

它只做一件事：理解这一整串 Token 之间的关系

它会 “看懂”：

前面是你的指令：要做视频、要配音

后面是素材：福字图片

你的意图：用福字做拜年视频

这就叫：用 Transformer 统一建模所有模态

第三步：Transformer 输出同一套 Token

这个大脑思考完，开始输出。

输出的依然是同一套通用 Token，里面包含：

对应视频画面的 Token

对应语音的 Token

比如输出一串：[V201, V202, ..., V300, A501, A502, ..., A520]（V = 视频相关 Token，A = 音频相关 Token，但依然是同一套体系）

第四步：解码成人类能看能听的内容

模型把输出的 Token 翻译回人类能用的格式：

视频 Token → 解码成 MP4 视频

音频 Token → 解码成配音语音

最后你收到：一个带福字画面、配着 “马年大吉” 语音的拜年小视频

用最通俗的一句话，再收个尾

你发文字、图片、语音、视频，模型全都先翻译成同一套 “通用密码”，交给同一个大脑去理解和生成，最后再翻回你要的文字 / 图片 / 音频 / 视频。

多模态大模型的工作原理

第一步：编码成【同一套 Token】

第二步：统一建模

第三步：Transformer 输出同一套 Token

第四步：解码成人类能看能听的内容