人工智能LLM学习随笔

发表于 2026-01-14

从LLM学习的角度来看，OpenAI最早也不确定通过连续的解码生成文字对话，即可实现对于智能的“涌现”。从这个角度来看，人类的幼儿是否也是同样的在与成人对话/社会生活中，连续大量的对话，逐渐掌握了智能？

最初婴幼儿是不会语言的，但具有听力，耳朵不断的大量输入信息，通过学习父母的对话，逐渐学会了说话。两岁左右的小孩，无论父母说什么都说“好”，最让父母开心的孩子莫过于说什么都表示同意。而后，进一步的孩子学会说“不”，逐渐叛逆，让父母感到难受。进一步的，在青少年时期，他们学会了更多的自主判断，回复更多的“不”，甚至对于父母的挑战，某些时候，他们挑战成功，让父母更加尴尬。

当前人工智能的AI，诸如DeepSeek公司开发的v3，都只会正面的回复问题，无论ai是否知道答案，她都会使之根据用户提供的上下文，输出一个答案。在不断的连续decoding过程中，自然掌握了隐藏在符号之中的逻辑推理的智能。这也是之前LLM测评中，重点关于MMLU（指令跟随）、math（数学逻辑）、GPQA（物理/化学/生物）等特点，最初人们希望LLM掌握语言中特定的指令，进而让LLM执行人的意志，做特定的事情，然后人们希望LLM掌握数学逻辑，进行逻辑推理。在2025年1月春节前后，ds发布的R1震惊全球，也是对于数学逻辑推理能力的训练成功，让LLM掌握了小学的数学推理，而后进一步的应用于初等数学、高等数学，让LLM逐渐更加全面的掌握了数学逻辑的知识。在此期间，物化生的知识也逐渐被训练学会，GPQA跑分一路增长，AI对于处理自然科学的知识/能力大幅度进步。

从2022年OpenAI发布chatGPT到现在（2026.1），全球的AI发展非常迅猛，23年出现的GPT3.5，24年的GPT4，25年的o1/GPT5。对应国内，ds公司23年的v1，24年的v2，25年的v3/r1（qwen/glm/kimi/ernie/doubao等）也遵循类似的发展路线。

正如2026.1姚顺雨在AI大会上说的：To C（如ChatGPT）体验提升对普通用户已不显著，瓶颈常在于额外的上下文和环境信息，而非单纯的模型能力。To B（如Claude Code）则对智能高度敏感，强者恒强效应明显，用户愿意为最强模型支付溢价。

现阶段，各个厂商提供的AI服务（基于LLM）都是类似的，大模型能力已经达到一定平台期，所有AI厂商输出的结果都能够很好的满足普通用户对于获取信息的需求。更进一步的，需要让LLM发挥出更强的能力，做到更强的更好的答案输出，则需要对AI进行上下文引导，注入prompt中的role、background、context、question、3 shots、example等等，都属于对AI约束控制的方法，本质上都可以认为是上下文的引导。恰如ds v3.1以后，思考过程中总会提及用户可能是什么“角色”，其实质是v3.1自动帮助问题确定当前需要采用哪个expert的神经通路进行激活，扮演什么样的角色。无论是用户的角色，还是ai的角色定义，都是约束，都是边界条件的控制。

或者说，上下文所有的内容本质都是LLM大模型这个超级函数f(x1.x2.x3…)的输入，要想获得更好的输出答案，那么增加正确的输入内容是非常重要的。如果单词解码输出答案失败，则需要用户重新更新约束，再次对话。以往的AI存在上下文长度仅2k、4k、8k、32k、128k、256k…连续对话以后，LLM出现上下文溢出的问题，随着LLM上下文快速拓展，普通用户的常规对话溢出对话范围的可能性大幅度降低。使得连续对话的效果得到改善，但就具体的decoding过程而言，连续对话反复输入的信息和单次输入的信息实际是存在差异的，连续对话无论中间对话内容正确与否都会作为后续对话的输入进行推理，导致误差累积，尤其是采用各种量化模型进行推理的时候，积累误差非常容易出现死循环。另外，根据ds v3.2的报告，其改进了注意力机制以后，大幅度降低了长上下文的推理成本，参考ds提供的图片资料可以看出当推理上下文长度增加的时候，decoding的成本也是线性增加的。只是ds v3.2调整了注意力机制，改用DeepSeek Spare Attention，在8k左右的长度进行拐点处理，超出部分通过选择开关进行筛选解码，大幅度降低了prompt/decoding在8k以上部分的成本，最终实现了更低的API价格。

从用户的角度来看，连续对话是简单的，可以随时根据AI反馈的信息调整对话要求，让LLM输入的内容更加符合自己的需要。当然，也有可能用户自己不清楚希望LLM输出什么样的内容，根据连续对话中反馈的信息，动态调整后续问题，这就导致如果LLM在前面对话中输出了错误的信息，用户无法甄别，基于错误信息连续对话，那么最终必然无法输出正确的结果。所以，在应用LLM推理的时候，良好的上下文管理是非常重要的，这要求用户具备更高的水平，能够更准确的进行提问/对话，给定更加可行的约束条件、路线建议，让LLM快速收敛到正确的路径上，而非在完全不知道该往哪个方向进行推理的时候，瞎猜用户最可能认可的方向。

2025年12月ds发布了mHC论文，跨越多层的残差网络算法优化了当前MOE大模型超大深度的神经层之间的信息传递，避免梯度消失/爆炸，确保关键信息能够在长流水深度保持正确传递。2026年1月又发布了n-gram的静态记忆层论文，利用可以卸载到RAM或SSD的静态知识记忆层，使得MOE模型可以在神经网络层更加专注于逻辑推理的神经元构建，让静态知识/世界知识可以更加容易的进行编码到低成本的RAM/SSD中，而减少算力卡宝贵的vRAM的占用。同时，还发现世界知识卸载以后，MOE其余的神经网络层构建逻辑推理的能力得到提升。

未来ds基于mHC和n-gram技术开发V4版本成功，必然进一步降低ds的大模型推理成本，以及推理性能。当前各家的LLM智能都已经达到较高水平（80±%@普通用户提问），大量白领在日常工作中大量应用AI帮忙解决问题，提高工作效率，下一步必然是进一步的提高对于专业深度问题的解决能力，以及成本的进一步降低，推理速度的提高。届时，无论用户愿不愿意，都将面临AI超越大部分人能力的境况，而那时才是所有人真正的考验。

2025年LLM发展太快，进步神速！