人工智能学习速记(LLM)
人工智能现阶段通常指大语言模型(LLM),大语言模型主要是基于文本上下文的联系,通过词语向量化使句子中的词语转化成可以计算的向量(Vector),利用自注意力机制进行相邻词语的预测推算,生成语句。根据用户输入的对话内容,LLM通过神经网络向量计算,逐一输出对应的回答内容,如果用户给出的问题是准确、清晰且具有良好边界的提问,那么回答内容准确率相当可观。
在2025年3月底来看,大语言模型发展非常迅速,主要是随着2025年1月25日deepseek发布R1模型和相关论文,详细说明了增强学习(RL)可行性,表明2024年的稠密模型和多专家模型(MOE)可以通过RL直接跳出监督学习(SFT)的限制,大幅度降低对于SFT微调过程中高质量文本训练集的依赖性。随后,国内大量人工智能公司跟进相关技术的研究,目前已知智谱清言GLM4、KIMI、阿里的通义千问QwenQ、抖音公司的豆包都引入了具有思维链的增强模型。虽然,各家都没有明确的进行发布说明,但可以预见强化学习的有效性。
在2025年1月份Deepseek发布R1模型的同时,还发布了基于R1生成数据,微调得到的QwQ小模型、Ollama小模型,这些小模型覆盖从1.5B、7B、14B、32B、70B不等的大小。实测结果表明这些小模型也具有很好的性能,特别是对于数学计算和编程等方面的成绩提升非常显著,明确SFT采用的数据资料对于模型性能影响极大。通过强化学习模型Deepseek-R1作为老师,生成SFT训练集,可以帮助小模型获得质的提升,这是因为以往的LLM训练依赖于互联网公开数据资料,包括各种网页、论文、书籍等资料,但这些资料本身并不是对话内容,用于训练LLM的聊天问答对话而言,并不是很对应。通过强化学习得到的Deepseek-R1生成的用于SFT的内容恰恰是聊天问答对话内容,因此可以很好的被小模型吸收,进而使得小模型的性能大幅度提升。
另一方面,有网友反馈使用deepseek-still-QwQ模型,32B、70B模型的性能较好,但是14B模型表现较差,一方面说明稠密模型的性能和参数大小直接相关,另一方面说明Deepseek-R1模型是571B的MOE模型,激活参数约37B,也就是说模型在解决特定问题的时候,只需要调用MOE中的部分专家模型即可。相应的可以根据各个行业的特点,进行相应的蒸馏,通过Deepseek-R1模型生成特定领域的问答数据资料作为训练集。然后,基于这些训练数据对小的稠密模型进行训练,获得特定领域专长的小模型,满足不同的公司应用需求。
最新的消息显示,阿里方面已经基于强化学习完成新的模型训练,并推出了全新的QwQ-32B模型,该模型的在数学方面的性能进一步提升,甚至达到了满血版Deepseek-R1模型571B版本的水平。表明强化学习的可行性,LLM模型训练对于训练数据的依赖大幅度降低;以及,单纯就数学方面的模型性能表现,并不要求LLM模型必须具有超大的参数,只需要32B就可以达到很好的性能。可以说,对于特定的领域,可能少量的模型参数即可满足很高的性能要求。
强化学习只关注大模型输出的结果正确与否(可以选择关注输出过程),不提供具体的参考学习资料,没有老师讲解,全凭AI自己觉悟。相比于SFT,强化学习不再依赖于人工生成专用的训练数据集,可以通过用户使用直接根据用户使用反馈进行模型训练强化,具有了更强的创造力,就像谷歌公司发明的围棋AlphaGo Zero一样,具有实现远远超出人类能力的潜力。
以往的人类计算机技术发展,往往依赖于人类将自己总结的经验进行编程,获得相应的专用技术产品,计算机程序本质上是对于人类已经归纳总结好的知识进行呈现,相当于把人类知识或技能固化到计算机上执行。基于transform架构的神经网络算法,不再依赖于人类教授特定技能;而强化学习则进一步挖掘人工智能自主提炼形成独立技能的潜力,仅仅告诉计算机特定的目标和需要达成的结果,中间过程由计算机自己去完成。
相信在现有的诸多学科中存在的需要耗费大量人力、物力的研究课题,都可能受益于人工智能技术的进一步发展,利用更多的算力实现机器自动化研究,最终由科研主持人去挑选满足人类目标的收获。
另外,强化学习的deepseek-R1蒸馏得到的各个小模型,表明训练大模型的推理能力可以分领域蒸馏到更容易应用的小模型上,降低算力门槛,加速人工智能推广应用。现在(2025.3.30)大语言模型已经从原来的单精度32bit降低到16bit,而deepseek-R1论文又进一步把训练用的参数精度降低到FP8,极大的节约了算力,提高了推理的效率。下一阶段猜想可能进一步优化推出专用的推理算力卡,专门用来执行特定的FP8运算推理,或者把模型量化到INT8进行推理加速,这两种都是8bit精度,考虑到现有一般设备INT算力可能更为充分一些,美团公司对deepseek-R1做了专门的INT8量化处理,结果表明量化损失1%-3%左右,损失极小,潜力极大。
如果后续LLM训练和推理进一步解离,那么FP8和INT8不失为两条重要潜力的路径。如果是FP8训练+FP8推理,那么专用的FP8算力卡可以很好的发挥专门的作用或价值,相应的算力卡只需要根据FP8计算进行优化设计,推理速度可以非常高。如果是INT8推理则需要增加一层量化处理,但INT8算力卡设计难度可能更低,同时INT8计算速度也会更快,且能够和现有的CPU算力进行融合,通过提供专门的INT8算力卡,结合CPU、GPU和NPU等,快速的实现INT8推理能力叠加,实现UE终端推理能力大幅度上升,推动全社会。