Oct, 2023

VD-GR: 提升视觉对话的层叠时空多模式图

TL;DR我们提出了一种新颖的可视对话模型 V D-G R,它将预训练语言模型与图神经网络相结合,通过空间 - 时间多模式 GNN 和 BERT 层之间的交替集成机制,实现图像、问题和对话历史三个模态的特征处理,并在实验证明 VD-GR 在四个数据集上都达到了最新的最优结果。