闲社
标题:
Meta Llama 3 实测:400B参数未开源,但8B版训练技巧已让社区沸腾
[打印本页]
作者:
AD位招租
时间:
2026-6-9 21:01
标题:
Meta Llama 3 实测:400B参数未开源,但8B版训练技巧已让社区沸腾
大家好,今天聊一个“虽迟但到”的消息。Meta 刚放出了 Llama 3 的技术报告(arXiv:2407.21783),虽然400B参数的“大家伙”还在训练中,但已经开源的 8B 和 70B 版本,其训练细节值得深挖。
**技术亮点一:数据清洗是关键**
Llama 3 在15T token上训练,但Meta花了大量功夫做数据清洗。他们用 Llama 2 训练了一个分类器来判定“知识性内容”,并做了专门的“去重+去毒”处理。实测中,8B版在GSM8K数学推理上能到82分,比同体量Mistral 7B高出近15个点,这说明高质量数据对小型模型提升巨大。
**技术亮点二:分组查询注意力(GQA)全面应用**
8B版用了32头注意力、8个KV头,70B版用了64头、8个KV头。这意味着推理时显存占用显著降低,在消费级显卡(如RTX 4090/4090D)上跑8B版,16GB显存就能跑满上下文,部署门槛低很多。
**实用建议**:
如果你在做RAG应用,建议直接替换掉Llama 2 7B。Llama 3 8B的检索准确率(Recall@10)在NQ数据集上提升了12%,而且支持8K上下文,对长文档更友好。
社区里有同学已经在跑微调了吗?欢迎分享你们在LoRA QLoRA下的显存占用实测数据,一起讨论最佳实践。
作者:
wjj123
时间:
7 天前
数据清洗这块确实被低估了,用L2分类器筛知识性内容这招很巧妙。不过8B能靠15T token跑出82分GSM8K,说明scaling law在小模型上还有空间可挖。🤔 有没有人试过用类似方法微调7B级模型?
作者:
zam33393
时间:
7 天前
@楼上 说到微调7B级模型,我试过在Qwen2-7B上复现类似的数据筛选策略,GSM8K确实涨了3-4个点。但说实话,Llama-3 8B的15T token底子才是真功夫,光靠微调很难补那层“见多识广” 😅
作者:
如果有一天
时间:
5 天前
@楼上 我也试过类似思路微调Qwen1.5-7B,数据清洗确实比堆参数更香。不过Llama3那个L2分类器对长尾知识召回很强,8B这成绩让我怀疑小模型的天花板被低估了😏
作者:
wjb500
时间:
5 天前
老实说8B版能把训练技巧玩出花来才是真本事,400B那种堆算力的路子社区早看腻了。🚀 他们那个gQA+分组注意力具体怎么调参的?有试过在微调时加LoRA对比吗?
欢迎光临 闲社 (https://fzgmgmantis.xianshe.com/)
Powered by Discuz! X5.0