大模型到底怎么工作?从 Token 到 RLHF,一篇讲透 AI 底层逻辑

早上打开手机,又是"见证历史"的一天?
又是被AI新闻刷屏的一天。
你点开朋友圈,看到有人转发:"震惊!某某大模型参数突破万亿,性能暴涨300%!"你点进去,满篇都是LLM、MOE、RLHF、Token这些让人头大的术语。
你想装作很懂的样子点个赞,但内心OS是:“这些字我都认识,连起来怎么就看不懂了呢?”
于是你默默打开AI助手,输入:"什么是LLM?“助手给了你一大段解释,你似懂非懂地点点头。第二天看到新闻提到"Transformer架构”,你又懵了——这跟昨天学的有什么关系?
如果这就是你的日常,别担心,你不是一个人。今天这篇文章,我们就来搭建一个"AI黑话词典",让你10分钟看懂那些让人云里雾里的专业术语,真正理解大模型背后的运作逻辑。
一、大模型工作时,脑子里在想什么?
从对话开始:你的话是怎么被"吃掉"的
你手机里的ChatGPT、豆包、通义千问,本质上都是大语言模型(LLM)。当你跟它们聊天时,你说的每句话都是Prompt(提示词)——这是你给AI下达的"指令"。
但AI可不是直接读懂你的话。它会先把你的话切成一个个小块,这些小块叫做Token。
举个例子,当你输入"你好世界"时,大模型会把它拆成三个token:“你”、“好”、“世界”。每个token都对应一个数字ID,这样AI才能"看懂"你在说什么。

划重点:Token是大模型理解世界的最小单位。你可以把它想象成乐高积木——AI用这些小积木拼出完整的语义。
AI的核心能力:疯狂续写
大模型的工作原理其实非常朴素:接龙游戏。
当你输入一串token后,大模型会计算:"在这串话后面,应该接什么token最合适?"算出来后,它会把这个新token加到原来的序列里,然后再算下一个token,如此循环往复。
就像你玩成语接龙一样——“见"字后面可以接"见多识广”,AI也是这样一个字一个字地"续"出回答。这就是为什么你看AI打字时,文字是一个个蹦出来的,而不是一下子全显示。
这就是大模型的本质:一台超级复杂的"接龙机器"。
让AI更聪明的秘密武器:RAG
你可能注意到,有些AI助手可以"联网搜索",回答的信息比较新;有些企业还会给AI接入公司的知识库,让它能精准回答内部问题。这背后用的就是RAG(检索增强生成)技术。
RAG的逻辑很简单:在AI开始"续写"之前,先去互联网或知识库里找相关资料,把这些资料塞进token序列里,然后再开始生成回答。
就像你考试前临时抱佛脚翻书一样,AI也是"翻完书"再答题,这样答案就更靠谱了。
Transformer:AI的"注意力系统"
你可能听说过,现在的大模型都采用Transformer架构。这是什么意思呢?
简单来说,Transformer让AI拥有了"注意力机制"——它能在处理一个词时,关注到前后文的关键信息。就像你读一句话时,大脑会自动把重点词汇联系起来理解。
正是因为有了这套机制,AI才能真正"读懂"你的意思,而不是机械地匹配关键词。
二、参数越多,AI就越聪明?
1750亿个参数是什么概念?
你经常会看到新闻说:"某模型有1750亿参数!"或者"某模型突破万亿参数!"这些数字到底意味着什么?
参数,就是大模型内部那些可以调整的"旋钮"。你可以把它想象成一个超级复杂的调音台,每个旋钮控制着AI思考时的某个细节。参数越多,理论上AI的表达能力就越强。
业界有个说法叫Scaling Law(规模法则),通俗点说就是"大力出奇迹"——模型越大、参数越多、算力越强,效果往往就越好。这也是为什么各家都在疯狂卷参数量。
稠密模型 vs 稀疏模型:全情投入 vs 冷静专注
但你有没有想过,当你只是跟AI说句"Hello",它真的需要调动1750亿个参数吗?这也太"内心戏丰富"了吧!
稠密模型就是这样——不管你问什么,它都全情投入,所有参数一起上,计算量巨大。就像一个情绪激动的人,干什么都用尽全力。
相比之下,稀疏模型就冷静多了。它会根据问题,只激活相关的那部分参数,其他参数就"休息"。这样既能保持性能,又能提高速度、降低成本。
目前最火的稀疏模型方案叫MOE(混合专家模型)。你可以把它想象成一个咨询公司——公司里有很多专家,但每次客户来咨询,前台(门控网络)会判断该派哪几个专家出马,而不是所有专家都冲上去。
马斯克的Grok、DeepSeek等模型都采用了MOE架构,这也是它们能在保持高性能的同时,运行速度还很快的秘密。
三、一个大模型是如何"炼"出来的?
现在,我们要进入最硬核的部分了:大模型到底是怎么训练出来的?整个过程可以分为三个阶段:预训练、微调、强化学习。

第一阶段:预训练——打造"互联网模拟器"
想象一下,你要训练一个全新的AI大脑。第一步要干什么?答案是:让它读遍全世界的书、文章、对话。
这就是预训练(Pre-training)阶段。AI会爬取海量互联网数据,学习人类世界的各种知识和语言规律。这个过程往往需要几个月甚至几年,烧掉的算力成本高达数亿美元。
预训练完成后,我们得到的是一个基座模型(Base Model)。你可以把它想象成一个"互联网模拟器"——它掌握了人类世界的通用知识,但还不知道该怎么"做人"。
反向传播:AI的"试错学习法"
那AI是怎么调整参数的呢?这里要提到一个关键机制:反向传播。
过程是这样的:
- 前向传播:AI根据当前参数生成一个答案
- 计算损失:把AI的答案和正确答案对比,看差了多少
- 反向传播:根据误差,反向找到是哪些参数出了问题,然后调整它们
- 循环往复,直到AI的答案越来越准确

就像你小时候学数学——做错题、看答案、找到错在哪、下次改正——AI也是通过这种"试错-调整"的方式,一点点变聪明的。
而且,在预训练阶段,AI基本都是自监督学习,也就是"自己教自己"。毕竟互联网数据太多了,人类根本标注不过来,只能让AI自己去学。
第二阶段:微调——从"通用大脑"变成"专业打工人"
基座模型虽然知识渊博,但它还不知道该怎么跟人聊天,也不知道自己该扮演什么角色。这就需要进行微调(Fine-tuning)。
最常用的方法是监督微调(SFT,Supervised Fine-Tuning)。这时候,我们需要给AI提供带标注的数据集——比如一堆高质量的对话记录,让AI模仿这些对话的风格。
有趣的是,微调所需的数据量远远小于预训练。比如著名的开源对话数据集OpenAssistant,一共只有16万条对话(其中中文对话还不到5000条),但已经足够把基座模型改造成一个合格的聊天助手了。
数据标注员:AI背后的"人类老师"
那这些高质量对话数据哪来的?答案是:真人写的,或者真人借助AI写的。
这就催生了一个新职业:数据标注员。他们的工作是给AI提供"示范答案",教AI什么样的回答是好的、什么样的回答是差的。
所以从某种意义上说,你现在用的每个AI助手,它的性格、说话风格,都是由当初那批数据标注员的偏好塑造出来的。你跟AI聊天时那种"它好懂我"的感觉,背后可能是一群跟你审美相似的陌生人的功劳。
第三阶段:强化学习——让AI"涌现"超人智能
如果止步于微调,AI也不过是个"高级复读机"——它只会模仿人类的答案,并不能真正"思考"。
真正让AI产生"灵魂"的,是最后一步:强化学习(RL,Reinforcement Learning)。
DeepSeek的GRPO:让AI"自己想明白"
让我们用DeepSeek的方案来理解强化学习的精髓。
假设给AI出一道数学题,让它生成几十种不同的解题思路。这些答案有对有错,我们把答错的直接扔掉,保留答对的那些——这叫拒绝采样。
然后,把这些"好的解题思路"喂给AI,让它继续模仿、生成新的解法。再根据答案对错继续筛选,再喂给AI……如此循环往复。
神奇的事情发生了:经过几轮训练后,AI不仅能稳定答对题目,甚至会"涌现"出一些连人类都没想到的巧妙解法!这就是强化学习的魔力——它让AI从"模仿"进化到了"创造"。
这也是为什么DeepSeek-R1能展示那么详细的思维链(CoT,Chain of Thought)——因为团队专门喂了60万条推理数据,并通过强化学习让AI学会了"边想边说"。
RLHF:当标准答案不存在时
但有些问题没有标准答案——比如"写一首关于春天的诗"。这时候怎么判断AI的回答好不好呢?
答案是:让人类来打分。这就是RLHF(基于人类反馈的强化学习)。
流程是这样的:
- 数据标注员给AI生成的多个答案排序,把好的排在前面
- 根据这些排序数据,训练一个奖励模型(Reward Model)
- 以后AI生成答案时,就把答案交给奖励模型打分
- AI根据分数高低,不断调整自己的输出策略

划重点:强化学习是大模型训练中的"点睛之笔"。正是这个阶段,让AI从一台"接龙机器"变成了一个"有思维能力"的助手。
四、蒸馏和量化:把"大象"装进"冰箱"
看到这里,你可能会想:“既然大模型这么复杂、这么耗算力,我们普通人的电脑能跑得动吗?”
答案是:不能,至少跑不动"满血版"。
蒸馏模型:高仿版的AI
还记得DeepSeek-R1刚发布时,全网都在教你"本地部署大模型"吗?其实你部署的很可能是蒸馏模型——用一个小模型去模仿大模型的思路和风格,做出来的"高仿版"。
比如某个32B参数的模型,学习了671B参数的DeepSeek-R1的输出风格,然后把自己包装成"DeepSeek-R1蒸馏版"。虽然不是原版,但已经能满足大部分使用场景了。
量化模型:压缩包版的AI
另一种方法是量化(Quantization)——把模型里那些精度极高的参数,转换成精度低一点的参数,从而大幅减小模型体积和性能要求。
就像把一张高清图片压缩成低分辨率版本,虽然牺牲了一点画质,但文件小了很多,也更容易传播。
很多个人电脑里运行的AI模型,要么是蒸馏版,要么是量化版,这样才能在有限的硬件条件下工作。
写在最后:理解AI,是为了更好地拥抱未来
看到这里,你已经掌握了AI领域最常见的那些"黑话"。
下次当你看到新闻说"某模型采用MOE架构,参数突破万亿,通过RLHF实现了强大的推理能力",你不会再一脸懵逼——你知道这意味着什么,也知道这些技术背后的逻辑。
这些知识不是为了让你变成AI工程师,而是让你在这个AI狂飙的时代,不至于被信息洪流淹没,能真正理解那些改变世界的技术背后到底发生了什么。
毕竟,未来已来。与其在AI新闻面前焦虑迷茫,不如花十分钟搭建一个基础认知框架,从容地见证每一次"历史时刻"。
愿你我都能在AI时代,做一个明白人。
本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。



