Sep, 2023

通过文本生成解决视觉驱动对话中的引用

TL;DR通过对话互动生成确切描述来增强视觉引导对话中视觉语言模型(VLMs)的话语处理能力,并使用预训练的VLMs在零样本情况下识别参照物,从而提高了参照的准确性和效果。