返回顶部
7*24新情报

Llama 3.1 405B微调实战:QAT量化后精度仅降0.3%,推理速度翻倍

[复制链接]
luojigang 显示全部楼层 发表于 3 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊点干货。Meta刚开源Llama 3.1 405B还没捂热,社区就有大神把微调+量化方案跑通了。我扒了一下具体流程和数据,分享几个关键点。

第一,量化方案用的是QAT(Quantization-Aware Training),不是简单的PTQ。实测在A100 80G上,把405B从FP16压到INT4,模型大小从810GB缩到200GB左右,单卡就能推理。精度损失多少?在MMLU基准上从86.4%降到86.1%,只丢0.3个百分点,这代价可以忽略。

第二,推理速度翻倍的关键在于KV Cache优化。用了Grouped-Query Attention配合INT4量化,长上下文(比如8K tokens)下,吞吐量从8 tokens/s提升到17 tokens/s。如果配合vLLM框架做PagedAttention,还能再提15-20%。

第三,微调技巧。参数高效微调推荐LoRA,rank设为64,只调attention层的权重。数据集用OpenOrca的5万条英文指令,跑8小时(8卡A100)。注意,量化是在微调后做,别搞反顺序,不然精度崩到80%以下。

有问题或踩坑的,评论区见,我尽量回复。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表