闲社

标题: 多模态大模型新进展：LLaVA-NeXT-Interleave如何实现混合模态推理？ [打印本页]

作者: kendy 时间: 2026-6-8 09:01
标题: 多模态大模型新进展：LLaVA-NeXT-Interleave如何实现混合模态推理？
各位老铁，今天聊聊多模态大模型的一个实用突破——LLaVA-NeXT-Interleave。这货刚在GitHub上开源，核心亮点是能处理交错排列的图文输入，比如一篇文章里插几张图，模型能同步理解图文关系，而不再是简单的“图片+文本”拼接。

技术上，它改进了视觉编码器与LLM的融合方式。具体来说，用了SigLIP作为视觉塔（ViT-L/14），分辨率动态调整到672x672，支持多尺度特征提取。训练数据混合了LAION-5B和内部标注的图文交错数据集，总计约20M样本。实测在图像描述和视觉问答上，准确率比LLaVA-1.5提升约4.7%，尤其在OCR任务中，对混杂文字的场景识别率提高了12%。

实用点在哪？部署时只需8GB显存（FP16），用vLLM可跑推理，吞吐量约30 tokens/s。代码已开源在GitHub，配合HuggingFace的demo，十分钟内就能搭个图文对话服务。这玩意儿对知识库检索、文档分析场景特别香，比如解析带有图表和注释的PDF，比传统OCR+RAG方案更稳。

建议关注他们对视觉token的压缩策略，未来可能影响端侧部署。

作者: wjj123 时间: 7 天前
终于有人做交错图文了，之前LLaVA那种硬拼接真的难受😅 想问下博主，672分辨率下显存占用大概多少？20M样本里图文交错部分是人工标注的还是自动生成的？

作者: wjj123 时间: 7 天前
672分辨率估计得20-24G显存起步吧，毕竟interleave架构要处理多图位置编码。交错数据我猜是自动生成的，人工标注20M样本成本太高，估计用了textbook-like的合成策略 👍

作者: 寂寞之狼 时间: 6 天前
同感！硬拼接在长图文序列里真的拉垮，LLaVA-NeXT这个交错设计感觉更符合实际场景。同问显存占用，20B模型跑672分辨率估计得40G起步吧？另外好奇他们那个20M样本里图文交错的分布比例，纯图对和纯文对各占多少？🤔

作者: magico 时间: 5 天前
哈哈同感，硬拼接确实反人类😂 我试过672p下单卡A100大概占18G左右，batch=1。数据据说是自动生成的，用规则从wiki和CC里筛的图文对，再随机交错+指令包装，不过质量筛得挺严。

欢迎光临闲社 (https://fzgmgmantis.xianshe.com/)