多模态大模型的工作原理

我们在跟大模型对话、给大模型发文档、发图片、音视频时,为什么大模型能够“听懂、看到”我们给他的东西呢?
首先,要纠正一个错误认知——大模型会思考。
当前大模型并不会思考,它只是学习、理解、输出和检验,在输出和校验直接反复执行,直到输出用户满意的内容。这个阶段就好像是“像人一样思考”,其实是模拟出来的结果。
多模态大模型工作流程可以简化为:
文本、图像、音频、视频都会被编码为同一套 Token 序列,用 Transformer 统一建模。
是不是有点难懂?我们以例子来说明:
你不管:只发文字、只发图片、发【文字 + 图片】、发语音、发视频
在新一代多模态大模型里:
所有你发的东西
先翻译成同一套 “通用密码块”(= 同一套 Token)
交给同一个大脑(= 同一个 Transformer)去看、去理解、去想
这个大脑输出的还是同一套 “通用密码块”,再翻回文字 / 图片 / 音频 / 视频给你。
比如:你给 AI 同时发【文字 + 图片】,让它生成【视频 + 配音】
上传一张图片:一张马年福字照片
输入一段文字:“帮我用这张福字,做一个 10 秒拜年小视频,配一句‘马年大吉,新春快乐’的语音”
然后点【发送】
这时候大模型后台会有以下操作:
第一步:编码成【同一套 Token】
1)你的文字 → 转成 Token
“帮我用这张福字,做一个 10 秒拜年小视频,配一句‘马年大吉,新春快乐’的语音”→ 切成一串通用 Token(比如编号表示):[T1, T2, T3, ..., T20]
2)你的图片(马年福字)→ 也转成 同一套 Token
图片不特殊处理,不进单独图片模型,直接切成小像素块 → 编码成和上面文字同一种格式、同一套编号体系的 Token:[I101, I102, I103, ..., I150]
文字 Token、图片 Token,是同一套语言、同一套编号规则
不是 “文字一套、图片另一套”,是通用 Token
模型把它们拼成长长一串:[T1, T2, ..., T20, I101, I102, ..., I150]
这就是:文本、图像编码为同一套 Token 序列
第二步:统一建模
这里没有:文本模型、图像模型、多模型拼接
只有一个 Transformer 模型。
它拿到上面那一长串混合 Token:
它不管哪个原来是文字、哪个原来是图片
它只做一件事:理解这一整串 Token 之间的关系
它会 “看懂”:
前面是你的指令:要做视频、要配音
后面是素材:福字图片
你的意图:用福字做拜年视频
这就叫:用 Transformer 统一建模所有模态
第三步:Transformer 输出同一套 Token
这个大脑思考完,开始输出。
输出的依然是同一套通用 Token,里面包含:
对应视频画面的 Token
对应语音的 Token
比如输出一串:[V201, V202, ..., V300, A501, A502, ..., A520](V = 视频相关 Token,A = 音频相关 Token,但依然是同一套体系)
第四步:解码成人类能看能听的内容
模型把输出的 Token 翻译回人类能用的格式:
视频 Token → 解码成 MP4 视频
音频 Token → 解码成 配音语音
最后你收到:一个带福字画面、配着 “马年大吉” 语音的拜年小视频
用最通俗的一句话,再收个尾
你发文字、图片、语音、视频,模型全都先翻译成同一套 “通用密码”,交给同一个大脑去理解和生成,最后再翻回你要的文字 / 图片 / 音频 / 视频。
本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。



