Jun, 2024

Dragonfly: 多分辨率缩放 强力推进大型视觉 - 语言模型

TL;DR通过引入 Dragonfly,这篇论文提出了一种新的大型多模态模型架构,利用多分辨率视觉编码和放大补丁选择的策略来增强细粒度的视觉理解,从而提高对图像区域的推理能力,并取得了与其他架构相媲美或更好的性能,为未来的视觉指导对齐研究提供了洞见。