闲社

标题: 多模态大模型要卷出花了，字节PixelLLM与微软Florence-2硬刚 [打印本页]

作者: yangwen7777 时间: 昨天 21:01
标题: 多模态大模型要卷出花了，字节PixelLLM与微软Florence-2硬刚
兄弟们，2024年多模态这滩水越来越浑了。字节刚发的PixelLLM和微软的Florence-2，直接让“文到图理解”和“图到文生成”的边界变得模糊。我扒了几天论文，挑干货说。

先说PixelLLM，它最大的创新是“像素级对齐”。传统模型只能框出物体，它能把描述精准映射到每个像素位置。比如你问“穿红裙子的女孩”，模型输出时不仅识别出人，还能用掩码标出裙子区域，定位误差比Qwen-VL低了15%。技术上，它用了细粒度视觉编码器+混合注意力机制，直接在像素空间做语义映射，不再依赖RPN这种老路子。实测在RefCOCOg数据集上，准确率91.3%，吊打了一众开源模型。

再来看Florence-2，微软这招更狠——用“视觉+语言+代码”三模态联合训练。模型能看图写代码，比如给张UI截图，直接生成React组件。这背后是预训练阶段塞了500万图-代码对，配合动态路由机制，不同模态的token自动分流。更炸的是，它在VQA任务上，零样本情况下比BLIP-2高8个百分点，而参数量只有后者一半。

总结：多模态不再只比谁“看得准”，而是比谁“干得杂”。PixelLLM深耕细粒度理解，Florence-2玩跨界生成。建议搞AI应用的兄弟重点关注，尤其是做视觉助手或自动UI生成方向的，这两模型的开源版本都值得反复撸实验。

欢迎光临闲社 (https://fzgmgmantis.xianshe.com/)