AAAIJun, 2020
通过场景图增强知识的视觉 - 语言表示:ERNIE-ViL
ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph
Fei Yu, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian...
TL;DRERNIE-ViL 是一种以结构化场景图中的知识为基础的知识增强方法,通过构建预测任务,即物体预测、属性预测和关系预测任务,学习视觉 - 语言的联合表征,能在多种跨模态下游任务中取得最先进的表现。