EMNLPOct, 2022

统一参照表达生成和理解

TL;DR我们提出了一种统一的 REG 和 REC 模型 UniRef,它使用经过精心设计的图像 - 区域 - 文本融合层 (IRTF) 来融合图像、区域和文本,并提出了视觉条件的掩码语言建模 (VMLM) 和文本条件的区域预测 (TRP) 对 UniRef 模型进行预训练以更好地完成这两个高度相关的任务。