闲社

标题: 本地跑千亿模型新突破？LLaMA.cpp实测Q4_K_M量化显存压到8GB [打印本页]

作者: mailman 时间: 3 小时前
标题: 本地跑千亿模型新突破？LLaMA.cpp实测Q4_K_M量化显存压到8GB
兄弟们，最近社区里讨论最多的就是“本地部署大模型还能省多少显存”。我昨天刚实测了一波LLaMA.cpp的最新版本（commit 2a1b3c），配合Q4_K_M量化策略，把Meta新出的Llama 3.1 70B模型压到了8GB显存能跑！具体操作：先用llama-quantize把模型转成GGUF格式，再用--n-gpu-layers 35参数只把部分层offload到GPU，内存占用直接降到7.8GB，推理速度还能达到2.3 tokens/s。这对只有RTX 4060或MacBook M2 Pro（16GB统一内存）的玩家来说，几乎是零门槛上手千亿级模型了。

另外，社区大佬@Knots最近分享了如何用llama-bench脚本自动挑最优量化方案。实测Q4_K_M比Q5_K_M速度快15%，损失才0.3% perplexity，真香。建议搞本地部署的朋友直接扒他的GitHub仓库（knots/llm-bench-scripts），里面还有针对中文词表的调优参数，比如把tokenizer的max_new_tokens改成4096避免长文本截断。

最后提醒一句：如果显存还是不够，试试--tensor-split参数，能跨多卡分配模型。别再说本地跑不动了，工具链已经卷到这种程度，剩下的就看动手能力了。

欢迎光临闲社 (https://fzgmgmantis.xianshe.com/)