Oct, 2023

揭示参照理解对多模态语言模型的力量

TL;DR该论文提出了一种新的方法来增强多模态大语言模型的指称理解能力,通过使用边界框的坐标表示图像中的指称对象,并将其转化为特定格式的文本,使模型能够以自然语言处理坐标,同时通过自洽引导方法和参数高效的调整框架进一步提升指称理解能力。实验结果表明,该方法在传统的视觉语言和指称理解任务中的性能优于其他方法。