Dec, 2023

像素对齐的语言模型

TL;DR本研究探讨了如何使用大型语言模型进行定位任务,包括词语对应定位和参照定位,通过模型的输入和输出使用位置作为参数来生成图像描述,实现稠密单词定位,并在多个视觉和语言任务中达到了最先进的性能。