ACLMay, 2020

语言与视觉推理的跨模态相关性

TL;DR本研究探讨了学习和推理语言和视觉数据的挑战,并设计了一种新型跨模态相关模块,可用于学习各种输入模态的组件之间的相关表示,它比仅仅重新调整原始表示空间更具泛化性。我们的方法不仅模拟了文本实体和视觉实体之间的关联,还模拟了文本中实体关系和图像中对象关系之间的高阶关联。实验证明,我们的方法在两个不同的语言和视觉任务上展现出了竞争性能,并提高了 VQA 任务的训练效率。