Dec, 2018

利用先验视觉关系的场景图推理用于视觉问答

TL;DR使用结构化可视化表征 —— 场景图,通过可视上下文和语言因素进行关系编码,使用场景图卷积网络实现对对象属性和关系语义的联合推理来回答视觉问题,从而在 GQA 数据集上实现了 54.56%的最高准确率。