Oct, 2023
VD-GR: 提升视觉对话的层叠时空多模式图
$\mathbb{VD}$-$\mathbb{GR}$: Boosting $\mathbb{V}$isual $\mathbb{D}$ialog with Cascaded Spatial-Temporal Multi-Modal $\mathbb{GR}$aphs
Adnen Abdessaied, Lei Shi, Andreas Bulling
TL;DR我们提出了一种新颖的可视对话模型 V D-G R,它将预训练语言模型与图神经网络相结合,通过空间 - 时间多模式 GNN 和 BERT 层之间的交替集成机制,实现图像、问题和对话历史三个模态的特征处理,并在实验证明 VD-GR 在四个数据集上都达到了最新的最优结果。