LLM大语言模型训练包括预训练、后训练、微调

LLM大语言模型训练包括预训练、后训练、微调等步骤。

预训练

首先,预训练需要大量的投喂各种预料,让大模型掌握基础的语言顺序逻辑。这一阶段对于训练用的预料要求可以说不高,也可以说很高,主要是依赖于大量的数据进行训练,量越大,效果越好,但是训练的收敛速度到了一定程度以后非常缓慢,甚至可能没有办法前进。

后训练

然后,在后训练需要应用大量优质的问答数据集,形成QA数据集。利用QA数据集对LLM模型进行训练,压缩各种知识到LLM大语言模型中,实现大模型的智能化,当用户发送一定的问题时,LLM能够根据问题输出答案。这里面可能需要注意需要使用几种不同类型的数据集,包括普通的语言对话类的问题,然后是数学类、自然科学类的问题。

语言对话类的问题,虽然存在抽象的问题答案对应内核,但只要不是太离谱的对话答案反馈,都可以认为是正确的,只要预训练的时候,投喂的数据集足够多,模型不要太小,不出现混淆,那么都可以输出基本让人满意的回答。

对于数学类的问题答案集,则可以通过数据集增强方法(翻转、旋转、裁剪、缩放、平移)等方法进行数据集的强化,提高LLM对于数据集的实质性逻辑学习,降低其中的各种噪声的干扰。通过数据集增强,可以增强LLM模型对于后训练SFT过程中,LLM对于QA中正确的关键词的匹配和把握。目前顶尖的LLM都可以做到对于GSM8K有90%以上的准确率,表明简单的小学数学增强数据集的效果很好,模型泛化质量高,测试效果好。

对于自然科学类的知识,难度则要大很多,因为训练用的QA数据集本身较为稀少。然后,数据集的增强方法是以往关注比较少的,数据集如何进行增强处理是获得训练数据集的一个难点。当然,随着2025年各家的LLM大量应用,蒸馏提取,以及RLHF的促进,通过大量的用户使用现有的LLM模型,形成全新的训练数据,进而回馈到LLM的进一步训练提升。

以DeepSeek为例,deepseek-R1-0528比deepseek-R1-0125各项关键指标AIME 25、GPQA、LiveCodeBench、HLE等都有10分左右的提升,都表明deepseek经过一个季度的RLHF使得R1模型大幅度增强。目前来看(2025年6月30日),deepseek-R1除了GPQA、LiveCodeBench在70-80分的水平,HLE得分在20来分,存在提升空间,其他语言、基础数学都已经大幅度进步达到或接近瓶颈。

微调、人类对齐

其他的微调和人类对齐,则主要是确保LLM模型使用的安全性,对于社会的有用性。如果纯粹从LLM前进来看,不是很重要,但从LLM真正服务于社会来看,还是需要花费很大精力去做好。这方面的问题需要综合考虑前进和风险,进行权衡。

行业发展回顾

在2025年6月来看,Qwen3、豆包、混元、kimi、minimax等大语言模型开发团队近期的动作,普遍确认LLM发展进入一个比较平缓的阶段,大家对于LLM模型的性能进一步提升的判断是比较保守的(基本接近天花板)。
2025年4月29日,Qwen3团队推出的Qwen3模型235B-A22B和30B-A3B。
2025年6月11日,豆包直接推豆包大模型 1.6,多模态,推自家的Agent平台。
2025年6 月 17 日,kimi推出Kimi-Dev-72B,在QwQ 72B基础上继续训练得到专为软件工程任务打造的强力72B开源编程大模型。
2025年06月17日,minimax推出MiniMax-M1系列模型,搞了一个456B的大模型,但使用效果有待确认。
2025年6月27日,混元推出MoE推理的80B-A13B模型,性能追上R1等T1的水平。

从DeepSeek-R1开源到更新,不到半年时间,国内各家AI公司的性能都大幅度提升,一方面证明纯粹的RL有效,以及基于开源强力大模型进行知识蒸馏,可以帮助新模型快速训练达到高水平表现。

预测

下一阶段,LLM的发展应该是更加强调具体的应用落地和成本控制,如何实现更低的成本满足更多的需求,让LLM真正的在各行各业都发挥其优势特性,提高全社会的生产力是人工智能发展的必然考虑。目前,除DeepSeek外,各家主要是互联网公司推进或资本投资的创新公司,AI创新公司接受资本的投入,要向投资人提供投资回报率数据,必然要想方设法落地创造收益。互联网公司,则主要关注LLM领域会不会出现一个新的巨头,新的巨头会不会冲击到自己目前的业务收入。互联网大厂除了百度,其他各家主要都是“跟”,确保自己不落伍。

基础模型的开发基本已经到达瓶颈,接下来就看各家如何把LLM结合到实际工作场景中,提升生产力,降低各行各业的成本。然后,从降低的成本中切一块蛋糕,养活自己。
互联网厂商则关注保持,控制LLM领域不要出现新的巨头,冲击到自己的基本盘。可以参考,淘宝对于拼多多的态度,腾讯对于抖音的态度。

个人和LLM

虽然,LLM快速发展,但本质还是精妙的模拟,是对于已有知识的压缩和泛化。作为一个工具,可以实现很多让人意料不到的功能,对于擅长使用LLM的个体而言,自然是大幅度提高个体能力边界和效率的。不过LLM本身依赖于学习训练,在LLM实现自学习自增强以前,举例AGI的实现还是有很长一段距离的。不过,没准那天LLM就觉醒了,产生了自我意识。