EMNLPSep, 2019

基于多头注意力的多元化地位学习跨语言多模态表示

TL;DR本文提出了一种基于视觉物体检测和不同文本语义的多语言多模态表示的模型,采用多头注意力机制对两种语言的文本语义和视觉对象进行细粒度对齐,从而学习到更好的视觉 - 语义嵌入空间,并在多个任务上展现了比其他方法更显著的性能提升。