关于deepseek技术发展路径的思考
从2025年初社会普遍性关注到DeepSeek发布的R1模型的快速新闻学传播,到广泛的社会大众使用DeepSeek模型分析自己的问题,时间仅仅过了大半年,但给人的感觉好像是经过了好多年的大跨步发展。一方面,这是由于人工智能(AI)行业快速发展的节奏特点,另一方面是由于普通大众对于AI的底层技术理解较为匮乏,当AI技术实现一定发展的时候,给人感觉好似魔法般的黑科技。
本文尝试回顾2025年1月到现在(11月)之间的10个月的DeepSeek核心技术发展路径,作为一个外部观察者,总结难免存在误差,甚至错误,但如果不把这些思考写下来,又难免觉得思维容易丢失。不妨抛砖引玉,在这里胡诌一通…
V2模型@2024.5
首先,DeepSeek的R1模型要从V3模型开始说起,V3是在V2.5将通用大语言模型的V2和Code的V2进行融合以后得到的综合模型V2.5后1。DeepSeek公司基于训练V2系列的经验,开展V3的训练,这里有一点需要注意的V2.5的模型参数大约236B-A21B。具体参数见,而V3模型直接在这基础上增加到大约3倍的总参数量671B,激活参数也拓展到了32B。
V3模型@2024.12
V3就是互联网上最著名的DS仅仅花费openAI百分之x的训练成本,完成了V3的训练。在2024年底关于V3高效率训练还主要是AI研究行业内的关注,并未出圈,真正让DeepSeek公司迅速闻名于全世界的是R1模型。其实在R1发布之前还发布过一个基于V3模型通过强化学习的R1-zero,当然后来并不出名(出圈),因为在R1-zero中通过强化学习(RL)自动生成的思维链,很多都是乱码,并不是人类思考的形式。
R1模型@2025.1
DeepSeek在开发R1以后,确认RL对于训练大模型是可行的,可以通过大模型自己独立的思考获得增强输出内容质量的效果。根据R1的论文,DeepSeek在完成zero训练以后,确认RL方法可行,又额外找来了10万条思维链数据作为冷启动数据,引导V3模型在强化学习中生成符合人类思考习惯的思维链数据,如此获得了R1模型。同时,DeepSeek为了更好的说明自己关于RL训练方法对于人工智能LLM训练的方法,同步进行了蒸馏distill,将通过DeepSeek-R1推理输出的QA数据对,用于qwen2、ollama系列模型的后训练,实现了这些开源模型性能的大幅度增强。在国外网友对R1进行测试以后,发现这个MIT开源的LLM大语言模型性能俨然跟chatGPT的性能相差无几,所有开发者突然间可以借助其开源的MIT协议版本的DeepSeek-R1快速追上chatGPT o1(当时最先进的思考模型),让人们突然发现chatGPT 4o突变到o1的性能不再是遥不可及的黑科技,而是人人都可以开发应用的普通技术。
DeepSeek-R1在国外人工智能开发圈的爆火,突然由于海外网友的大肆鼓吹,形成了出口转内销的国内互联网自媒体的高潮。人们说起人工智能,就不能避开当红炸子鸡DeepSeek-R1,同时由于蒸馏模型对于各个等级的硬件支持的可能性,配合ollama平台在PC端直接一键运行的可性能,大家突然发现自己手上的破电脑也可以运行人工智能了,而不是傻不啦叽的人工智障。
于是DeepSeek-R1顺利出圈,各大第三方人工智能运营平台纷纷上线DeepSeek-R1开源模型,开展大范围的知识平权运动。中国网友们不再羡慕外国的白富美chatGPT o1的强大,不再感概国产大模型的羸弱,而是快速上手能够看到chatGPT o1尾灯的DeepSeek-R1。
DeepSeek-R1出圈以后,所有人的第一反应是“智能”!!然后就是“好卡”,“服务无响应,请稍后再试”,原本DeepSeek充裕的算力卡资源被瞬间涌入的大流量冲垮,虽然DeepSeek公司infra能力极强,把一张算力卡压榨出2-3张算力卡的计算性能,但依然顶不住巨大的流量。大量用户的问题被抛弃,人们不得不寻求第三方部署的DeepSeek-R1,这也让其他几家做人工智能的公司快速抓住机会,吃入流量。
在R1成功以后,人们欢呼国产大模型崛起,更加期待R2模型什么时候上线,什么时候超越chatGPT。但持续很长一段时间内,DeepSeek公司并没有发布R2,一方面互联网上各种小道消息/谣言满满天飞,甚至出现了出口转内销的谣言,老外更是直接“内部消息”造谣,万亿模型呼之欲出;另一方面其他各家的模型快速迭代,你方唱罢我登场。
V3-0324更新
随后,DeepSeek在2025年3月24日发布了对于V3后训练的模型0324,笔者个人猜测是基于R1部署推理服务获得的语料数据,汇总成基于人类反馈的强化学习(HFRL)后训练集,因为大量用户使用DeepSeek形成的语料是天然的人类对齐的对话数据,是最优质的“问答对”数据,如此对V3直接再次后训练微调使得DeepSeek-V3-0324性能大幅度提升。
对于V3-0324,官方说法(https://api-docs.deepseek.com/zh-cn/news/news250325)是:“新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。”
R1-0528更新
然后,DeepSeek在2025年5月28日发布了新的R1模型,称为DeepSeek-R1-0528,该模型似乎是基于新的V3模型,强化了思维链的长度,让R1思考更久。整体的性能提升非常明显。通过增加R1模型思考的tokens数量,确保了输出的结果正确性,即类比人们学习做题的时候,遇到困难的问题多思考思考,反复演算,反复确认,最终保证结果的正确性。
对于R1-0528,官方说法https://api-docs.deepseek.com/zh-cn/news/news250528 DeepSeek-R1-0528 仍然使用 2024 年 12 月所发布的 DeepSeek V3 Base 模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。 同时,官方还发布了蒸馏版的DeepSeek-R1-0528-Qwen3-8B。该 8B 模型在数学测试 AIME 2024 中仅次于 DeepSeek-R1-0528,超越 Qwen3-8B (+10.0%),与 Qwen3-235B 相当。我们相信,DeepSeek-R1-0528 的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。
后面确实是大量小模型通过蒸馏吸收大模型生成的训练数据集跑分成绩一路狂飙,超越2024年的各种先进大模型完全不再话下,也让大模型边缘部署/私有化部署的应用价值大幅度升高。
V3.1升级
在R1-0528发布以后很长一段时间,DeepSeek公司沉寂了,直到暑假快结束的时候,8月21日他们发布了 DeepSeek-V3.1。这次的V3.1模型实际上,是对于R1-0528的替代,而不是对于V3-0324的替代,因为V3.1同时集成了思考和非思考模式。部署约个车V3.1模型,就可以同时提供普通对话(V3)和推理模型(R1)的服务,使得DeepSeek公司有限的算力卡可以一次性提供两种均衡服务。同时,在使用中还注意到相比于R1-0528,V3.1的思维链更加简洁,似乎做了某种精炼处理。0528推理过程中模型可能会把问题在思维链中解答一次,然后在反复确认,最后进行输出,导致消耗大量的tokens来确保正确率。而V3.1的思维链则不是解答问题,而是直接对用户提问进行延伸拓展,补齐关键信息,只需要很少的思维链toekns就可以开始答案输出,且正确率还挺高的(相比于0528正确率损失很小)。
互联网上有很多用户测试发现,V3.1存在“..极..”bug,特别是编程过程中连续输出数列的时候,会非常容易出现“..极..”字样,疑似语料污染。另外,也有说法称量化版的V3.1更加容易出现该bug,第三方部署的V3.1似乎比官方的V3.1更容易出现“..极..”bug。这可能和量化模型精度降低,上下文长度达到一定程度以后,特别是在推理过程中,会出现误差,进而出现非理想的推理结果(错误回复)。
对于V3.1,官方说法https://api-docs.deepseek.com/zh-cn/news/news250821 ,V3.1升级主要变化:
- 混合推理架构:一个模型同时支持思考模式与非思考模式;
- 更高的思考效率:相比 DeepSeek-R1-0528,DeepSeek-V3.1-Think 能在更短时间内给出答案;
- 更强的 Agent 能力:通过 Post-Training 优化,新模型在工具使用与智能体任务中的表现有较大提升。(对于工具应用方面,笔者接触较少没有测试)
- V3.1的 Base 模型在 V3 的基础上重新做了外扩训练,一共增加训练了 840B tokens。
其中,第4点,V3的基础上做了外扩训练,似乎原本的BASE模型架构不足以承载某些新的东西,因此进行了外扩处理。猜想下一次更新V4或R2模型的时候,模型规模还会再次大幅度增加,毕竟Scaling Law对于提升模型能力是真的很关键。更大的模型能够掌握更多世界知识,在有足够训练数据的情况下,有效的规避过拟合,实现模型更加强大的世界知识性能表现,对于SimpleQA类简单问答正确率一定可以大幅度提升。不过模型大幅度增加参数不可避免的会存在复杂度爆炸的风险,梯度消失的风险,比如说Kimi月之暗面公司 K2模型,苏神说是直接在DeepSeek的基础上,扩到1000B的大小(+50%),然后经过好几次迭代一直没有推出推理模型,似乎在普通的chat模型向推理模型转化中遇到了什么困难。
V3.1-终版
再下次更新模型,就要到9月22日了,DeepSeek直接发布了DeepSeek-V3.1-Terminus,表明V3.1版本研究的结束。对于该版本由于发布运营时间较短,笔者使用较少,整体感觉变化不大,主要是修复V3.1的某些bug。从官方文档说法来看,可能是V3.1训练时,token重复惩罚偏高,容易中英文混杂输出,进行了微调修复。
对于V3.1-Terminus,官方说法https://api-docs.deepseek.com/zh-cn/news/news250922 ,在保持模型原有能力的基础上,针对用户反馈的问题进行了改进,包括:
- 语言一致性:缓解了中英文混杂、偶发异常字符等情况;
- Agent 能力:进一步优化了 Code Agent 与 Search Agent 的表现。
V3.2试验版
V3.1-Terminus发布没有几天,DeepSeek公司马上又推出了DeepSeek-V3.2-Exp。这个版本的模型非常特殊,相比以上V3.1在成本控制上有极其夸张的进步。因为,DeepSeek官方API价格直接从V3.1推理输出价格12元降到3元,1/4;同时输入价格也从4元降到2元,1/2。参考二月底,DeepSeek在知乎回复尤洋质疑每天服务器运营成本造成巨额亏损时给出的平均H800每卡prefill = 70K tokens/s,decode= 14K tokens/s的恐怖成本控制能力。这次在大幅度降价,简直让人惊掉下巴,如果说在v3.1时期,还有其他国产厂商使用仅为R1的671B大模型总参数1/3-1/2的200-300B大模型提供更便宜的API服务(8元/M输出),那么V3.2的价格直接把大家的价格差异打穿了。
对于V3.2,官方说法https://api-docs.deepseek.com/zh-cn/news/news250929 DeepSeek-V3.2-Exp 模型是一个实验性(Experimental)的版本。作为迈向新一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(DSA,一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。DSA稀疏注意力机制:首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。为了严谨地评估引入稀疏注意力带来的影响,我们特意把 DeepSeek-V3.2-Exp 的训练设置与 V3.1-Terminus 进行了严格的对齐。在各领域的公开评测集上,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平。
按照官方的说法,似乎V3.2采用的DSA注意力机制相比于之前的多头潜在注意力(MLA)是有损失风险的,不过在训练过程中额外做了对齐处理,确保性能基本持平。笔者实际使用下来,感觉也确实是性能良好,没有明显的性能劣化。
DeepSeek-OCR仿生光学压缩
然后,在2025年10月24日DeepSeek又发布了DeepSeek-OCR: 上下文光学压缩,似乎准备采用仿生的“快读技术”来做上下文压缩处理。就好比人类学者在阅读书籍/文献的时候,可以快速的跳看文稿的各个部分,DeepSeek-OCR技术是他们招聘的xx科学家之前对于图像转文字技术的进一步研发成果,互联网大量自媒体文章表示该技术实现10倍的上下文压缩效果,且OCR准确率97%。简而言之,可以在推理过程中(decode)将超过一定范围的上下文内容,安排一定方式排版成图片(比如说将800 tokens内容排版成A4纸的图片),然后将图片用VL大模型转化成新的tokens,实现10x压缩效果。
有网友部署DeepSeek-OCR用于图像转文字识别处理,结果发现该模型非常容易漏掉色彩较淡的内容。结合LLM推理使用的MarkDown格式的渲染以后,主要是加粗、斜体、1-3级标题(相当于加粗)的效果,那么在上下文压缩的时候,重点加粗的文字其色彩是更浓郁的,也就是说上下文渲染成图片时,这些关键内容更容易保留下来,而普通文字更容易模糊消失。这非常符合人类快速阅读图书时的情况,当一个人快速翻看图书或文章的时候,关键部分的内容更容易被注意到,不那么重要的细节文字则更容易被忽略。
根据论文里面提及的DeepSeek3B-MoE实际是一个单独的视觉转化模型,当前(2025.11.05)在DeepSeek官网对话中,使用上传图片功能时,通常只能做简单的文字识别,且准确率并不高。如果新的OCR模块能够成功的集成到下一代大模型中,对于图像识别这一块会有非常大的帮助。
当前DeepSeek模型的上下文是128K级别,如果按照DeepSeek-OCR论文研究的图像化压缩技术和当前的大模型成功融合的话。可以猜想一下,DeepSeek模型上下文有希望直接提升10倍,达到1M级别。
V3.2试验版成本之谜
参考V3.2-exp官方文档中的图,似乎模型prfill过程中输入的tokens超过7k以后成本进入拐点,以低至1/6(估)的成本增长率上升;似乎模型在decoding过程中,输出tokens超过2.5k以后,成本进入拐点,以低至1/10(估)的成本增长率上升。有理由相信在DeepSeek-V3.2-Exp中已经应用某种独特的稀疏注意力机制(DSA)实现了更加高效的上下文压缩。
如果DeepSeek-OCR论文研究的图像化压缩技术真正得以集成到下一代大模型中,那么一定可以轻松的实现1M,乃至2-5M级别的上下文。那时,上下文直接突破100万 tokens,或者约等于150万汉字,任何一个行业的文本都可以作为上下文直接输入到对话中。再结合适当的cache技术,那么完全可能推出各种行业中全能的AI产品,只需要处理少量用户新增对话文字的推理处理,即可实现超高智能AI Agent?
所以,AGI要来了?
写在最后
也许接下来我们需要更进一步的考虑Attention问题,正如Transformer开山论文所说的:
Attention is All you Need?
如果能够控制好上下文,是否可以让当前的V3.2做到像百万上下文的AI一样的,甚至更好的推理输出效果。
- DeepSeek-V2.5:融合通用与代码能力的全新开源模型 | DeepSeek API Docs
- DeepSeek-V2 · 模型库
- DeepSeek-V3 模型更新,各项能力全面进阶 | DeepSeek API Docs
- DeepSeek-R1 更新,思考更深,推理更强 | DeepSeek API Docs
- DeepSeek-V3.1 发布 | DeepSeek API Docs
- DeepSeek-V3.1 版本更新 | DeepSeek API Docs
- DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价 | DeepSeek API Docs
- 魔搭社区-DeepSeek-OCR