大模型是怎么训练出来的?大模型训练核心过程

你是否好奇,像ChatGPT这样的AI助手,是如何从一堆杂乱的数据中,“学会”与我们自如对话的?它为何既能写诗编程,又能避免说出有害言论?这背后,是一套被称为“大模型三步训练法”的精妙工程。就像培养一位顶尖顾问需要经历“博览群书-名师指导-社会实践”一样,大模型的成长也遵循着类似的路径。上一篇的大模型训练过程大模型训练过程之大厨的养成对于具体训练过程写的很简略,补充一篇详细的介绍。
第一阶段:预训练 - 大模型的“通识教育”阶段
目标: 让模型掌握语言的基本规律和世界的普遍知识,形成强大的语言理解和生成能力。
核心方法: 自监督学习——训练所需的“标签”或“答案”直接从输入数据本身生成,无需人工标注。其核心是设计一个巧妙的“前置任务”(例如例如,在训练GPT时,任务是“预测下一个词”;训练BERT时,任务是“预测被掩盖的词”。),让数据自己生成“伪标签”作为监督信号。通过完成这个任务,模型并非为了学会填空本身,而是在过程中被动地吸收数据中的基础通用规律和特征,从而获得高质量的“通用知识”,这使其成为当今大模型进行预训练的基石。
监督学习 如同一位学生在有标准答案的习题册上练习。我们为模型提供大量已标注的数据(例如带有“猫”“狗”标签的图片),模型的任务是学习从输入数据到正确答案的精确映射。其核心目标是掌握一种预测或分类能力,最终能在面对新数据时给出准确答案,常用于图像识别、垃圾邮件过滤等任务。无监督学习 则像面对一堆未经整理的资料,需要自行发现其中的模式和结构。我们只给模型原始数据,而不提供任何标签或答案。模型必须通过分析数据内部的统计规律,自行完成聚类(将相似的事物分组)或降维(提炼主要特征)等任务。它的核心是探索数据本身的内在关系,常用于客户分群、异常检测等领域。
通俗理解:海量阅读中的模式发现
数据海洋中的浸泡:
这是训练的第一步,也是最耗时、最耗费算力和数据的一步。模型在海量、无标注的互联网文本(如网页、书籍、代码等)上进行训练,数据量可达TB甚至PB级别。这就像让一个“数字大脑”通读人类文明的所有文字记录。
自监督的核心机制:
最常见的任务是 “下一个词预测” 或 “掩码语言建模”。
通俗示例:给定句子片段“今天天气真不错,我们去...”,模型的任务是预测下一个最可能的词(如“公园”、“散步”)。通过数十亿次这样的练习,模型逐渐学会了词汇、语法、句法、事实知识(如“巴黎是法国的首都”),甚至简单的逻辑推理。
输出结果:
获得一个“基座模型”。它知识渊博,但“不懂规矩”——其本质是一个“超级文本补全工具”,可能会生成有害、有偏见或无用的内容,且无法很好遵循指令。
神经网络视角:万亿旋钮的首次校准
输入与表示(文本的数字化):
所有文本在进入网络前,都会被转换成向量(或称嵌入)。每个词对应一个在高维空间中的“坐标点”,语义相近的词(如“猫”和“狗”)在空间中的位置也相近。
核心架构:Transformer与注意力机制:
现代大模型的核心是Transformer神经网络,其最关键的部件是自注意力机制。
“注意力”的工作原理解析:当模型处理“首都”这个词时,自注意力机制像一束可调节的聚光灯,允许模型动态地“回顾”并“权衡”句子中所有其他词的重要性。它会给予“法国”和“巴黎”极高的关注权重,而给予“是”、“的”等词较低的权重。这种并行且动态的处理能力,让模型能瞬间理解词与词之间的远距离依赖关系。
学习信号与参数调整(旋钮如何转动):
任务:模型输出一个对所有可能词汇的概率分布(例如,“首都”概率80%,“城市”概率15%)。
损失计算与反向传播:将模型的预测与真实词对比,计算损失值(错误程度)。这个损失信号通过反向传播,从网络输出层逆向传回每一层,指示网络内部的万亿个参数(可调旋钮) 应该向哪个方向微调,才能减少错误。
参数的进化:经过数万亿次“预测-比对-微调”,网络参数逐渐收敛。词与词之间复杂的共现关系、逻辑关系被编码在了参数矩阵的数值之中。模型最终形成的“高维概念空间”,本质上是这些参数定义的一个极其复杂的数学函数。
第二阶段:有监督微调 (SFT)- 大模型的“专业深造”阶段
目标: 让经过“通识教育”(预训练)的大模型,通过人类示范的指令-回复数据,学会理解并遵循指令、输出符合人类偏好(安全、有用、格式规范)的响应,从而从一个被动的知识库转变为一个可控、可靠的任务执行者,并为后续的深度对齐奠定基础。
核心方法: 在高质量指令-回答数据上进行微调。在预训练好的通用大模型基础上,使用大量精心编写的高质量“指令-输入-输出”示例数据(即人类演示的对话或任务完成样本),通过标准的监督学习方式进行额外的训练,其训练目标通常是让模型学会在给定指令和输入时,能自回归地生成与示例数据分布一致、符合人类期望的优质回复,从而教会模型理解并遵从指令格式、输出有用、安全且风格对齐的内容。
通俗理解:专业教师的指导训练
数据质量的飞跃:
使用数量少得多(几万到几十万)、但质量极高的人工精心编写的“指令-回答”对。
示例:指令:“写一封感谢信,感谢面试官。”;高质量回答:“尊敬的[姓名]:感谢您昨天抽出时间与我面试...”
数据涵盖问答、总结、创作、代码、推理等多种任务。
针对性的技能训练:
将预训练好的基座模型在这批高质量数据上继续训练(微调)。训练方式依然是预测下一个词,但输入变成了“指令”,目标输出是“标准答案”。
这个过程教会模型两件事:遵循指令(而不仅仅是续写),以及以高质量格式组织回答。
输出结果:
获得一个“指令微调模型”。它现在是一个能进行对话、能完成任务的助手了,回答质量显著高于基座模型。
神经网络视角:在预训练“地基”上进行针对性改造
参数初始化:
SFT不是从头训练,而是加载预训练模型的所有参数作为起点。相当于在一个已认识世界的“大脑”上,教它新的“行为规范”。
架构的延续与微调:
网络架构完全不变,任务形式也相同(预测下一个词)。
关键区别在于数据分布:输入从“无组织的海量文本”变成了“结构化的指令-回答对”。
反向传播的针对性强化:当网络反复看到“指令:[问题] 回答:[高质量答案]”这种模式时,学习过程会专门强化与“指令理解”和“优质回答生成”相关的神经通路。具体来说,那些负责将指令语义与知识库内容精确匹配、并按特定逻辑组织语言的网络连接(参数) 得到重点加强和塑形。
输出的转变:
经过微调,同一个神经网络函数,当输入前缀是聊天格式时,其内部激活路径会自然流向被SFT数据塑造过的、生成“助手风格回答”的模式。模型的行为模式被改变,但其底层知识的核心参数得到了保留。
第三阶段:基于人类反馈的强化学习(RLHF) - 大模型的“价值观校准”阶段
目标: 进一步校准模型的输出,使其更符合人类复杂、主观的偏好(如有帮助性、安全性、无害性)。
核心方法: 强化学习 + 人类偏好数据。这是最复杂但至关重要的一步,让模型输出从“正确”变得“优秀且安全”。
通俗理解:社会实习与价值观内化
主要分为三个子步骤:
收集人类偏好数据,训练奖励模型:
做法:让SFT模型对同一问题生成多个不同回答,由人类标注员进行排序,判断哪个“更好”。
目标:利用这些排序数据,训练一个奖励模型。这个RM学会像人类一样,给“提问-回答”对打出一个代表质量优劣的分数。
使用强化学习微调模型:
流程(演员-评委游戏):
演员:需要微调的SFT模型。
评委:训练好的奖励模型。
游戏:演员针对问题生成回答。
打分:评委根据回答给出奖励分数。
优化:RL算法(如近端策略优化)不断调整演员的参数,使其生成能获得更高奖励分数的回答。
约束:为防止模型为了高分“钻空子”,加入“偏离原始模型不多”的约束,确保其不丢失基本能力。
输出结果:
获得一个“对齐模型”。它的输出不仅有用,而且在风格、安全性、道德伦理上更符合人类的主流价值观。
神经网络视角:引入外部“裁判”,引导模型输出空间的探索
训练奖励模型:构建数字裁判神经网络:
这是一个全新的、相对较小的神经网络。
输入/输出:输入“问题-回答”对,输出一个标量分数。
训练:使用人类排序数据,调整其参数,使其打分顺序尽可能与人类排序一致。最终,这个RM网络的参数编码了人类偏好的复杂模式。
强化学习微调:演员-裁判的共舞:
演员模型:SFT模型,其参数是优化主体。
裁判模型:奖励模型,参数被冻结,只负责打分。
强化学习循环:
探索:演员模型基于当前参数生成回答(由于随机性,每次可能不同)。
评估:裁判模型给出奖励分数。
策略梯度:高分奖励产生信号——“生成此回答时所用的内部神经激活模式和参数状态是好的,请加强它。” 此信号被计算为策略梯度。
谨慎更新:用该梯度更新演员模型参数,但更新被限制在小范围内(通过KL散度惩罚实现),防止其过度偏离SFT模型而“走火入魔”。
神经网络心智的最终对齐:
经过RLHF,主模型的神经网络参数发生了一次定向的、精细的偏移。这种偏移使得当模型身处“决策分叉点”时,其内部计算会倾向于激活那条通向更高预期奖励(即更符合人类偏好)的神经路径。
总结与形象比喻
整个大模型训练,是三层神经网络能力的叠加:
预训练网络:成为万能文本编码器与生成器,其参数构成通用的“世界模型”。
SFT微调网络:在1的基础上,成为任务解析与执行器,其参数学会了“听从指令”的映射函数。
RLHF对齐网络:在2的基础上,引入外部价值裁判,通过强化学习引导模型参数空间向“人类偏好区域”进行战略迁移。
核心流程链:
海量无标注文本 → 自监督预训练 → 基座模型 → 高质量指令数据 → 有监督精调 → SFT模型 → 人类偏好数据 → 训练奖励模型 → RLHF微调 → 对齐后的最终大模型
一个贯穿的比喻——培养一位专业顾问:
预训练:像让一个天才儿童通读人类所有书籍,拥有海量知识,但不懂交流与社会规则。
有监督精调:像为他聘请顶尖私人教师,通过范例教学,学会如何组织知识来清晰回答提问。
基于人类反馈的强化学习:想让他进入社会实习,每次回答都由资深专家(奖励模型)根据“有帮助”、“无害”等标准打分,他不断调整沟通方式,最终成为既专业又令人舒适的可靠顾问。
本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。



