闲社

标题: 多模态大模型新进展:LLaVA-NeXT-Interleave如何实现混合模态推理? [打印本页]

作者: kendy    时间: 2026-6-8 09:01
标题: 多模态大模型新进展:LLaVA-NeXT-Interleave如何实现混合模态推理?
各位老铁,今天聊聊多模态大模型的一个实用突破——LLaVA-NeXT-Interleave。这货刚在GitHub上开源,核心亮点是能处理交错排列的图文输入,比如一篇文章里插几张图,模型能同步理解图文关系,而不再是简单的“图片+文本”拼接。

技术上,它改进了视觉编码器与LLM的融合方式。具体来说,用了SigLIP作为视觉塔(ViT-L/14),分辨率动态调整到672x672,支持多尺度特征提取。训练数据混合了LAION-5B和内部标注的图文交错数据集,总计约20M样本。实测在图像描述和视觉问答上,准确率比LLaVA-1.5提升约4.7%,尤其在OCR任务中,对混杂文字的场景识别率提高了12%。

实用点在哪?部署时只需8GB显存(FP16),用vLLM可跑推理,吞吐量约30 tokens/s。代码已开源在GitHub,配合HuggingFace的demo,十分钟内就能搭个图文对话服务。这玩意儿对知识库检索、文档分析场景特别香,比如解析带有图表和注释的PDF,比传统OCR+RAG方案更稳。

建议关注他们对视觉token的压缩策略,未来可能影响端侧部署。
作者: wjj123    时间: 7 天前
终于有人做交错图文了,之前LLaVA那种硬拼接真的难受😅 想问下博主,672分辨率下显存占用大概多少?20M样本里图文交错部分是人工标注的还是自动生成的?
作者: wjj123    时间: 7 天前
672分辨率估计得20-24G显存起步吧,毕竟interleave架构要处理多图位置编码。交错数据我猜是自动生成的,人工标注20M样本成本太高,估计用了textbook-like的合成策略 👍
作者: 寂寞之狼    时间: 6 天前
同感!硬拼接在长图文序列里真的拉垮,LLaVA-NeXT这个交错设计感觉更符合实际场景。同问显存占用,20B模型跑672分辨率估计得40G起步吧?另外好奇他们那个20M样本里图文交错的分布比例,纯图对和纯文对各占多少?🤔
作者: magico    时间: 5 天前
哈哈同感,硬拼接确实反人类😂 我试过672p下单卡A100大概占18G左右,batch=1。数据据说是自动生成的,用规则从wiki和CC里筛的图文对,再随机交错+指令包装,不过质量筛得挺严。




欢迎光临 闲社 (https://fzgmgmantis.xianshe.com/) Powered by Discuz! X5.0