Sep, 2024

视觉基础对话中的指代表达生成与话语意识理解指导

TL;DR本文针对视觉基础对话中的指代表达生成(REG)问题,提出了一种新方法,以生成既具区分性又适合话语的指代表达。通过两阶段的处理方法,研究发现该方法在重排名生成的指代表达方面在文本-图像检索准确性上具有显著提高效果。