关于LLM大模型单机推理速度实测及改进思考
单机实测LLM模型推理速度,采用ollama运行qwen3 30b-a3b模型,由于激活参数仅3b,所以CPU运行速度尚可接受。
采用以下硬件测试:
CPU:i5-12400(6个P核、0个E核)
RAM:DDR4-2400MT/s
LLM模型:QWEN3-30b-a3b_Q4_K_M
采用两条DDR4-16G内存组成32G双通道RAM,由于内存条型号规格不同,导致实际运行频率跑不满,只能2400MT/S频率运行,实测带宽约30GB/s。
理论上CPU浮点算力为,全核睿频≈4.0 GHz,6个P核,支持AVX2和FMA指令集,单精度 FP32:6 × 4.0 × 16 = 384 GFLOPS。
实测:输入100tokens序列,prompt速度达到41 tokens/s;decode速度达到12 tokens/s。