Jun, 2024
通过检索的标签提醒多模态大型语言模型中的物体感知知识
Reminding Multimodal Large Language Models of Object-aware Knowledge with Retrieved Tags
Daiqing Qi, Handong Zhao, Zijun Wei, Sheng Li
TL;DR通过增强检索增强标记令牌,我们提出了 Tag-grounded visual instruction tuning with retrieval Augmentation(TUNA),在 12 个基准测试中优于使用相同语言模型和训练数据的基线模型,并展示了 TUNA 的零 - shot 能力。