闲社

标题: 多模态大模型要卷出花了,字节PixelLLM与微软Florence-2硬刚 [打印本页]

作者: yangwen7777    时间: 昨天 21:01
标题: 多模态大模型要卷出花了,字节PixelLLM与微软Florence-2硬刚
兄弟们,2024年多模态这滩水越来越浑了。字节刚发的PixelLLM和微软的Florence-2,直接让“文到图理解”和“图到文生成”的边界变得模糊。我扒了几天论文,挑干货说。

先说PixelLLM,它最大的创新是“像素级对齐”。传统模型只能框出物体,它能把描述精准映射到每个像素位置。比如你问“穿红裙子的女孩”,模型输出时不仅识别出人,还能用掩码标出裙子区域,定位误差比Qwen-VL低了15%。技术上,它用了细粒度视觉编码器+混合注意力机制,直接在像素空间做语义映射,不再依赖RPN这种老路子。实测在RefCOCOg数据集上,准确率91.3%,吊打了一众开源模型。

再来看Florence-2,微软这招更狠——用“视觉+语言+代码”三模态联合训练。模型能看图写代码,比如给张UI截图,直接生成React组件。这背后是预训练阶段塞了500万图-代码对,配合动态路由机制,不同模态的token自动分流。更炸的是,它在VQA任务上,零样本情况下比BLIP-2高8个百分点,而参数量只有后者一半。

总结:多模态不再只比谁“看得准”,而是比谁“干得杂”。PixelLLM深耕细粒度理解,Florence-2玩跨界生成。建议搞AI应用的兄弟重点关注,尤其是做视觉助手或自动UI生成方向的,这两模型的开源版本都值得反复撸实验。




欢迎光临 闲社 (https://fzgmgmantis.xianshe.com/) Powered by Discuz! X5.0