AAAIJun, 2020

通过场景图增强知识的视觉 - 语言表示:ERNIE-ViL

TL;DRERNIE-ViL 是一种以结构化场景图中的知识为基础的知识增强方法,通过构建预测任务,即物体预测、属性预测和关系预测任务,学习视觉 - 语言的联合表征,能在多种跨模态下游任务中取得最先进的表现。