Nov, 2019

用于视觉对话的高效注意机制,可处理多个输入之间的所有交互

TL;DR本文提出了一种名为LTMI的神经网络结构,它可以有效地处理多个输入源之间的交互,从而在视觉对话任务中取得良好的表现,在VisDial数据集上将最佳NDCG得分从57.59提高到60.92,使用多个模型可以提高到66.53,采用微调可达到74.88。