Mar, 2024

多模态自回归建模基于视觉单词

TL;DR成功进行多模态自回归建模,并首次提出了视觉词概念,将视觉特征映射到 LLMs 词汇的概率分布,为视觉建模提供了监督信息。通过对 5 个 VQA 任务和 4 个基准工具包的实验结果和消融研究的验证,证明了我们提出方法的强大性能。