Apr, 2024

逐项列出:多模式 LLM 的新数据源和学习范式

TL;DR通过对图像上的视觉标签列表项化,将视觉标签与图像关联起来,研究表明这种新的训练范式可以提升 Multimodal Large Language Models 的视觉推理能力和减少幻觉,并加强对象 - 文本对齐。