Jun, 2024

通过检索的标签提醒多模态大型语言模型中的物体感知知识

TL;DR通过增强检索增强标记令牌,我们提出了 Tag-grounded visual instruction tuning with retrieval Augmentation(TUNA),在 12 个基准测试中优于使用相同语言模型和训练数据的基线模型,并展示了 TUNA 的零 - shot 能力。