Apr, 2022

通过对比学习提高视觉对话中的跨模态理解

TL;DR本文提出了基于VD-BERT模型的ICMU方法,通过四向对比学习区分不同的输入来提高跨模态理解,支持多次视觉对话,改善视觉对话模型的跨模态理解,并在VisDial数据集上得到了令人满意的结果。