返回文章列表
AI

多模态大模型的工作原理

匿名
2026-02-11
3天前
多模态大模型的工作原理

我们在跟大模型对话、给大模型发文档、发图片、音视频时,为什么大模型能够“听懂、看到”我们给他的东西呢?

首先,要纠正一个错误认知——大模型会思考。

当前大模型并不会思考,它只是学习、理解、输出和检验,在输出和校验直接反复执行,直到输出用户满意的内容。这个阶段就好像是“像人一样思考”,其实是模拟出来的结果。

多模态大模型工作流程可以简化为:

文本、图像、音频、视频都会被编码为同一套 Token 序列,用 Transformer 统一建模。

是不是有点难懂?我们以例子来说明:

你不管:只发文字、只发图片、发【文字 + 图片】、发语音、发视频

在新一代多模态大模型里:

所有你发的东西

先翻译成同一套 “通用密码块”(= 同一套 Token)

交给同一个大脑(= 同一个 Transformer)去看、去理解、去想

这个大脑输出的还是同一套 “通用密码块”,再翻回文字 / 图片 / 音频 / 视频给你。

比如:你给 AI 同时发【文字 + 图片】,让它生成【视频 + 配音】

上传一张图片:一张马年福字照片

输入一段文字:“帮我用这张福字,做一个 10 秒拜年小视频,配一句‘马年大吉,新春快乐’的语音”

然后点【发送】

这时候大模型后台会有以下操作:

第一步:编码成【同一套 Token】

1)你的文字 → 转成 Token

“帮我用这张福字,做一个 10 秒拜年小视频,配一句‘马年大吉,新春快乐’的语音”→ 切成一串通用 Token(比如编号表示):[T1, T2, T3, ..., T20]

2)你的图片(马年福字)→ 也转成 同一套 Token

图片不特殊处理,不进单独图片模型,直接切成小像素块 → 编码成和上面文字同一种格式、同一套编号体系的 Token:[I101, I102, I103, ..., I150]

文字 Token、图片 Token,是同一套语言、同一套编号规则

不是 “文字一套、图片另一套”,是通用 Token

模型把它们拼成长长一串:[T1, T2, ..., T20, I101, I102, ..., I150]

这就是:文本、图像编码为同一套 Token 序列

第二步:统一建模

这里没有:文本模型、图像模型、多模型拼接

只有一个 Transformer 模型。

它拿到上面那一长串混合 Token:

它不管哪个原来是文字、哪个原来是图片

它只做一件事:理解这一整串 Token 之间的关系

它会 “看懂”:

前面是你的指令:要做视频、要配音

后面是素材:福字图片

你的意图:用福字做拜年视频

这就叫:用 Transformer 统一建模所有模态

第三步:Transformer 输出同一套 Token

这个大脑思考完,开始输出。

输出的依然是同一套通用 Token,里面包含:

对应视频画面的 Token

对应语音的 Token

比如输出一串:[V201, V202, ..., V300, A501, A502, ..., A520](V = 视频相关 Token,A = 音频相关 Token,但依然是同一套体系)

第四步:解码成人类能看能听的内容

模型把输出的 Token 翻译回人类能用的格式:

视频 Token → 解码成 MP4 视频

音频 Token → 解码成 配音语音

最后你收到:一个带福字画面、配着 “马年大吉” 语音的拜年小视频

用最通俗的一句话,再收个尾

你发文字、图片、语音、视频,模型全都先翻译成同一套 “通用密码”,交给同一个大脑去理解和生成,最后再翻回你要的文字 / 图片 / 音频 / 视频。

本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。

分享文章
合作伙伴

本站所有广告均是第三方投放,详情请查询本站用户协议