Jan, 2024

Veagle: 多模态表征学习的进展

TL;DR提出了一种名为 Veagle 的新方法,通过在现有模型中增强多模态能力,利用动态机制将编码的视觉信息直接投射到语言模型中,从而在视觉问题回答和图像理解等任务中表现出具有显著优势的 5-6% 的改进。