Nov, 2019
用于视觉对话的高效注意机制,可处理多个输入之间的所有交互
Efficient Attention Mechanism for Handling All the Interactions between
Many Inputs with Application to Visual Dialog
TL;DR本文提出了一种名为LTMI的神经网络结构,它可以有效地处理多个输入源之间的交互,从而在视觉对话任务中取得良好的表现,在VisDial数据集上将最佳NDCG得分从57.59提高到60.92,使用多个模型可以提高到66.53,采用微调可达到74.88。