May, 2019

将视觉区域与文本概念对齐以实现语义驱动图像表征

TL;DR该论文的研究旨在使用一组集成的视觉区域和相应的文本概念来表示图像,从而反映出特定的语义。为此,研究人员构建了互相迭代注意力(MIA)模块,并将该方法在图像字幕和视觉问答等任务中得到了验证。结果表明,该方法对于图像相关应用具有广泛的泛化能力,并且能将基线模型的性能提升到了一个新的水平。