Mar, 2022

无监督视觉 - 语言解析:通过依赖关系无缝桥接视觉场景图与语言结构

TL;DR本文提出了一种对视觉场景图和语言依赖树进行联合建模的无监督学习任务,并构造了一个新的数据集 VLParse,提出了基于对比学习的 VLGAE 框架用于 VL 短语理解和语言语法归纳。实验结果表明了视觉信息和语言依赖关系对于 VL 结构建模的有效性。