大语言模型的推理
大语言模型推理
关于大预言模型的推理,大家都喜闻乐见,对于简单的问题能够快速的反馈回答正确,在不考虑LLM模型是一个机器的情况下,见到LLM模型输出符合人类预期的结果,总是让人震撼的。没准哪天就把自己取代了。
然而,LLM模型的发展其实更像是汽车对于马车的取消,马车夫会觉得自己会管理马匹,属于专业技能选手。但当汽车推广开的时候,管理马匹的技能就不再是个必要技能了,马车夫自然而然的淘汰了。人工智能的自动驾驶普及的时候,驾驶员的角色也就显得不那么重要了,会开车的技能也失去了固有价值。
大语言模型最能够实现的本质还是基于输入推测输出的算法,是一个极度精巧的机器,这个机器当然是非常有用的,每个人都可以在这个机器上发挥自己的创造性,实现特定的功能。冲击最大的首当其冲的当然是搜索引擎,难怪百度那么积极的投身GPT的开发,可惜赶了个晚集。
大语言模型推理本质
大语言模型的推理本质是连续的超量的FMA运算, 以8B模型为例,含有80亿参数,需要做80亿次浮点运算乘法加和运算。
按照Transformer的自注意力机制,连续关注上下文的内容,实现自动推理。
每一次计算都需要从显存GDDR或内存DDR4/DDR5加载模型的参数内容,导致显存带宽/内存带宽容易成为LLM推理速度的瓶颈。
deepseek做的很牛的一点就是FP8训练+FP8推理,大幅度缓解了通信带宽的瓶颈问题,并避免INT8、INT4量化造成的性能损失。
由于大语言模型推理本质还是基于神经网络的超级模拟运算,所以杨乐春对于AI的悲观论断其实是很有道理的,不过目前来看,大家对于LLM的局限性并不那么在意,反正资本乐得投,群众乐得用,老板还指望AI取代两个员工,降本增效呢。
打工人能够用AI提高自己工作效率,降低自己的担子,也是十分愉快的。
至于杨乐春博士,对于AI下一阶段发展的关心,远远超出了大家的认知范畴。
家用游戏显卡推理LLM可行性
李博杰的雄文“A100/H100 太贵,何不用 4090”详细的介绍使用不同算力卡、显卡推理的可行性。
以4090为例,详细分析其INT8、FP8、FP16算力,以及限制推理的显存带宽因素,4090 官方宣称 Tensor Core 算力高达 1321 Tflops (int8),FP16 直只有 330 Tflops。结论是家用游戏显卡非常给力,算力、带宽都非常强,难怪4090全被抓去推理LLM,游戏佬根本不可能以原价买到4090打游戏。
黑市的4090被拔掉游戏卡的印刷电路板,咸鱼上一堆卖4090空壳的。
张量并行的情况下, 4090完全可以和H100等算力卡掰手腕,关键是刚开始的时候美国没有管制4090的销售。
如果忍受一定的延迟和推理速度降低,完全可以通过4090攒出超级算力平台,实现deepseek满血版的部署。
推理速度测试
网友测试千问Qwen3模型的本地部署推理速度测试。
使用UpHub AI中本地部署Qwen3大模型
Qwen-0.6B (6亿参数)
速度:15 Tokens/s的高速
硬件:i5+8GB内存+M2 SSD 2TB的电脑
Qwen-1.7B (17亿参数)
速度:20 Tokens/s的高速
硬件:i7+64GB内存+M2 SSD 2TB的电脑
Qwen-4B (40亿参数)
速度:12 Tokens/s的高速
硬件:i7+64GB内存+M2 SSD 2TB的电脑
Qwen-8B (80亿参数)
速度:5 Tokens/s的高速
硬件:i7+64GB内存+M2 SSD 2TB的电脑
Qwen-14B (140亿参数)
速度:1 Tokens/s的高速
硬件:i7+64GB内存+M2 SSD 2TB的电脑
随着大语言模型的体积增大,推理速度快速降低,没有GPU支持的情况下,纯CPU推理速度感人。
单机部署的MOE
Qwen3-30B-A3B 是2025年4月29日,阿里巴巴通义千问团队推出了最新一代大型语言模型系列 Qwen3系列中的小型MOE模型,和DeepSeek的MOE模型一样,是稀疏模型。
根据千问团队发布的报告,qwen3系列的4B稠密模型,GPQA能有55分,而30B-A3B 模型直接把分数拉到65.8分,快赶上原始版的DeepSeek-V3模型(59分)。
4B稠密模型AIME24有73.8分,30B-A3B 稀疏模型有80.4分。
windows电脑可以通过Ollama或LM studio加载运行。
懒得部署的,直接上官网用:https://chat.qwen.ai/
安装Ollama或LM studio以后,可以直接点选Qwen3:30B-A3B 模型
稀疏模型推理的优势在于每个token的计算量降低到激活的3B参数,推理速度相当于3B模型,同时模型的智力水平又相当于同等体积的稠密模型(如Qwen3:32B),甚至超过(如QwQ32B)。
大语言模型LLM推理速度
本地部署大语言模型推理,对于CPU核心的算力要求反而不高(单并发 1 req),主要的瓶颈是显存或内存的带宽。
在使用ollama推理的情况下,实际推理速度(token每秒)约等于带宽/模型大小(int8量化,如果是int4量化,则大约 × 1.7倍; fp16 量化,则 ÷ 2)
纯cpu推理:
双通道ddr4(3200Mhz):带宽=3200×64×2/1024/8=50(g/s)
qwen3:32b_q6量化,大小约28g,推理输出速度约 50/28 = 1.786 tokens/s;
双通道ddr5(8000Mhz):带宽=8000×64×2/1024/8=125(g/s)
qwen3:32b_q6量化,大小约28g,推理输出速度约 125/28 = 4.464 tokens/s;
家用的GPU也大致如此,重要的是显存带宽(假设显存足够大,能够完全加载LLM模型,不爆显存)
RTX 3060:带宽=15×192/8=360(g/s)
qwen3:32b_q6量化,大小约28g,推理输出速度约 360/28 = 12.857 tokens/s;
RTX 3090:带宽=19.5×384/8=936(g/s)
qwen3:32b_q6量化,大小约28g,推理输出速度约 936/28 = 33.428 tokens/s;
如果LLM大语言模型量化以后体积依然比显存大,那么LLM模型超出部分会加载到RAM,并用cpu推理
由于GPU推理速度远远大于CPU推理,所以综合推理速度会快速的被CPU的速度拉低,
而且超出的比例越大,CPU推理的比例越大,速度拉低的幅度越大
新的5090显卡算力
RTX 5090 的 AI 性能参数极为亮眼,其 FP4 稀疏算力达到了惊人的 3352 TOPS。
带宽方面:RTX 5090 的 1792G/s 相比于 RTX 4090的 1008 G/s 提升惊人。
考虑到其 32GB 的显存容量,可满足中等模型的加载,实现高效超快速推理。
采用业界即将广泛应用的 FP8 稠密算力(推理场景)作为基准,5090 算力为 838 TFLOPS,相较于 4090 的 660 TFLOPS,提升了约 27%。
综合来看,其理论 AI 性能至少比 4090 高出 30%
参考网页
1、A100/H100 太贵,何不用 4090
2、独立部署Qwen3各版本(0.6B、1.7B、4B、8B、14B、32B、235B)
3、Qwen3-30B-A3B 本地部署以及全能力测试
4、llm大模型推理需要的是显存/内存带宽
5、5090全面评测-AI新甜品