COLINGAug, 2022

了解视觉和语言任务中的注意力

TL;DR本文综合分析了不同注意力计算方法在视觉与文本特征之间建立语义联系方面的作用,以及该计算机制的可解释性与模型性能之间的关系,研究结果表明不同的计算机制在不同 VL 任务的表现存在差异,这为注意力机制在 VL 任务中的训练中提供了洞见,对于建立跨模态模型和预训练模型都具有启示作用。