EMNLPOct, 2020

学习使用 Denotation Graph 表示图片和文本

TL;DR本文提出利用暗示的视觉引导表达学习表示,自动地从图像和文本的数据集中挖掘出的结构关系,用于多模态学习模型中的视觉语言融合任务,证明了该方法在跨模态图片检索、指代表达和组合属性对象识别中的有效性。