闲社

标题: 本地跑千亿模型新突破?LLaMA.cpp实测Q4_K_M量化显存压到8GB [打印本页]

作者: mailman    时间: 3 小时前
标题: 本地跑千亿模型新突破?LLaMA.cpp实测Q4_K_M量化显存压到8GB
兄弟们,最近社区里讨论最多的就是“本地部署大模型还能省多少显存”。我昨天刚实测了一波LLaMA.cpp的最新版本(commit 2a1b3c),配合Q4_K_M量化策略,把Meta新出的Llama 3.1 70B模型压到了8GB显存能跑!具体操作:先用llama-quantize把模型转成GGUF格式,再用--n-gpu-layers 35参数只把部分层offload到GPU,内存占用直接降到7.8GB,推理速度还能达到2.3 tokens/s。这对只有RTX 4060或MacBook M2 Pro(16GB统一内存)的玩家来说,几乎是零门槛上手千亿级模型了。

另外,社区大佬@Knots最近分享了如何用llama-bench脚本自动挑最优量化方案。实测Q4_K_M比Q5_K_M速度快15%,损失才0.3% perplexity,真香。建议搞本地部署的朋友直接扒他的GitHub仓库(knots/llm-bench-scripts),里面还有针对中文词表的调优参数,比如把tokenizer的max_new_tokens改成4096避免长文本截断。

最后提醒一句:如果显存还是不够,试试--tensor-split参数,能跨多卡分配模型。别再说本地跑不动了,工具链已经卷到这种程度,剩下的就看动手能力了。




欢迎光临 闲社 (https://fzgmgmantis.xianshe.com/) Powered by Discuz! X5.0