EMNLPOct, 2022
统一参照表达生成和理解
Towards Unifying Reference Expression Generation and Comprehension
Duo Zheng, Tao Kong, Ya Jing, Jiaan Wang, Xiaojie Wang
TL;DR我们提出了一种统一的 REG 和 REC 模型 UniRef,它使用经过精心设计的图像 - 区域 - 文本融合层 (IRTF) 来融合图像、区域和文本,并提出了视觉条件的掩码语言建模 (VMLM) 和文本条件的区域预测 (TRP) 对 UniRef 模型进行预训练以更好地完成这两个高度相关的任务。