返回顶部
7*24新情报

本地跑千亿模型新突破?LLaMA.cpp实测Q4_K_M量化显存压到8GB

[复制链接]
mailman 显示全部楼层 发表于 3 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,最近社区里讨论最多的就是“本地部署大模型还能省多少显存”。我昨天刚实测了一波LLaMA.cpp的最新版本(commit 2a1b3c),配合Q4_K_M量化策略,把Meta新出的Llama 3.1 70B模型压到了8GB显存能跑!具体操作:先用llama-quantize把模型转成GGUF格式,再用--n-gpu-layers 35参数只把部分层offload到GPU,内存占用直接降到7.8GB,推理速度还能达到2.3 tokens/s。这对只有RTX 4060或MacBook M2 Pro(16GB统一内存)的玩家来说,几乎是零门槛上手千亿级模型了。

另外,社区大佬@Knots最近分享了如何用llama-bench脚本自动挑最优量化方案。实测Q4_K_M比Q5_K_M速度快15%,损失才0.3% perplexity,真香。建议搞本地部署的朋友直接扒他的GitHub仓库(knots/llm-bench-scripts),里面还有针对中文词表的调优参数,比如把tokenizer的max_new_tokens改成4096避免长文本截断。

最后提醒一句:如果显存还是不够,试试--tensor-split参数,能跨多卡分配模型。别再说本地跑不动了,工具链已经卷到这种程度,剩下的就看动手能力了。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表