ACLSep, 2021

多模态增量变压器结合视觉定位生成视觉对话

TL;DR该研究提出了一种多模态增量变形器(MITVG)的视觉指向方法,该方法可以显式地定位与文本实体相关的图像对象,从而帮助模型排除不需要关注的视觉内容,进而在多轮对话历史记录和视觉场景的基础上生成一致且连贯的响应。该模型在 VisDial v0.9 和 v1.0 数据集上实验结果证明了其优越性能。