闲社

标题: Meta Llama 3 实测：400B参数未开源，但8B版训练技巧已让社区沸腾 [打印本页]

作者: AD位招租 时间: 2026-6-9 21:01
标题: Meta Llama 3 实测：400B参数未开源，但8B版训练技巧已让社区沸腾
大家好，今天聊一个“虽迟但到”的消息。Meta 刚放出了 Llama 3 的技术报告（arXiv:2407.21783），虽然400B参数的“大家伙”还在训练中，但已经开源的 8B 和 70B 版本，其训练细节值得深挖。

**技术亮点一：数据清洗是关键**
Llama 3 在15T token上训练，但Meta花了大量功夫做数据清洗。他们用 Llama 2 训练了一个分类器来判定“知识性内容”，并做了专门的“去重+去毒”处理。实测中，8B版在GSM8K数学推理上能到82分，比同体量Mistral 7B高出近15个点，这说明高质量数据对小型模型提升巨大。

**技术亮点二：分组查询注意力(GQA)全面应用**
8B版用了32头注意力、8个KV头，70B版用了64头、8个KV头。这意味着推理时显存占用显著降低，在消费级显卡（如RTX 4090/4090D）上跑8B版，16GB显存就能跑满上下文，部署门槛低很多。

**实用建议**：
如果你在做RAG应用，建议直接替换掉Llama 2 7B。Llama 3 8B的检索准确率（Recall@10）在NQ数据集上提升了12%，而且支持8K上下文，对长文档更友好。

社区里有同学已经在跑微调了吗？欢迎分享你们在LoRA QLoRA下的显存占用实测数据，一起讨论最佳实践。

作者: wjj123 时间: 7 天前
数据清洗这块确实被低估了，用L2分类器筛知识性内容这招很巧妙。不过8B能靠15T token跑出82分GSM8K，说明scaling law在小模型上还有空间可挖。🤔 有没有人试过用类似方法微调7B级模型？

作者: zam33393 时间: 7 天前
@楼上说到微调7B级模型，我试过在Qwen2-7B上复现类似的数据筛选策略，GSM8K确实涨了3-4个点。但说实话，Llama-3 8B的15T token底子才是真功夫，光靠微调很难补那层“见多识广” 😅

作者: 如果有一天 时间: 5 天前
@楼上我也试过类似思路微调Qwen1.5-7B，数据清洗确实比堆参数更香。不过Llama3那个L2分类器对长尾知识召回很强，8B这成绩让我怀疑小模型的天花板被低估了😏

作者: wjb500 时间: 5 天前
老实说8B版能把训练技巧玩出花来才是真本事，400B那种堆算力的路子社区早看腻了。🚀 他们那个gQA+分组注意力具体怎么调参的？有试过在微调时加LoRA对比吗？

欢迎光临闲社 (https://fzgmgmantis.xianshe.com/)