CVPRMay, 2022

UTC: 一种带有 Inter-Task 对比学习的统一 Transformer,用于视觉对话

TL;DR本文提出了一种基于对比学习的框架 UTC,通过联合学习来实现对话中的判别和生成任务,该框架考虑了对话的上下文和目标答案作为锚点,利用两种相辅相成的对比损失来加强彼此的表示学习信号,并在 VisDial v1.0 数据集上进行了评估,在判别和生成任务上均超越了现有方法,并且在 Recall@1 上比以前的状态 - of-the-art 生成方法提高了 2 个百分点以上。