May, 2022
UTC: 一种带有 Inter-Task 对比学习的统一 Transformer,用于视觉对话
UTC: A Unified Transformer with Inter-Task Contrastive Learning for
Visual Dialog
TL;DR本文提出了一种基于对比学习的框架UTC,通过联合学习来实现对话中的判别和生成任务,该框架考虑了对话的上下文和目标答案作为锚点,利用两种相辅相成的对比损失来加强彼此的表示学习信号,并在 VisDial v1.0 数据集上进行了评估,在判别和生成任务上均超越了现有方法,并且在 Recall@1上比以前的状态-of-the-art生成方法提高了2个百分点以上。