UTC: 一种带有 Inter-Task 对比学习的统一 Transformer，用于视觉对话

May, 2022

UTC: 一种带有 Inter-Task 对比学习的统一 Transformer，用于视觉对话

UTC: A Unified Transformer with Inter-Task Contrastive Learning for Visual Dialog

Cheng Chen, Yudong Zhu, Zhenshan Tan, Qingrong Cheng, Xin Jiang...

TL;DR本文提出了一种基于对比学习的框架UTC，通过联合学习来实现对话中的判别和生成任务，该框架考虑了对话的上下文和目标答案作为锚点，利用两种相辅相成的对比损失来加强彼此的表示学习信号，并在 VisDial v1.0 数据集上进行了评估，在判别和生成任务上均超越了现有方法，并且在 Recall@1上比以前的状态-of-the-art生成方法提高了2个百分点以上。

Abstract

visual dialog aims to answer multi-round, interactive questions based on the dialog history and image content. Existing methods either consider answer ranking and generating individually or only weakly capture th

发现论文，激发创造

将判别学习中的知识转移至生成式视觉对话模型的最佳方法

本文提出一种新的训练神经序列模型，将判别式对话模型的知识传递到生成式对话模型中，通过Gumbel-Softmax逼近离散分布，建立了一个可端对端训练的生成式视觉对话模型，并在视觉对话数据集上显著优于现有模型(10个问题中有2.67个问题得分有所提高)。

Jun, 2017

双人博弈：具有辨别式问题生成和回答的视觉对话

展示了一个简单对称的辨别性基线，该基线可用于预测答案和问题，其性能与最先进的记忆网络方法相当。此外，首次在视觉对话数据集上评估了提问系统的性能，并展示了如何从辨别式问题生成和问题回答生成视觉对话。

Mar, 2018

基于图片-问题-答案协同的视觉对话网络

本研究提出了一种图像-问题-答案协同网络来评估答案的作用，该网络将传统的一阶段解决方案扩展为两个阶段，并在 Visual Dialog v1.0 数据集中取得了最新的最高成果。

Feb, 2019

通过回答不同的问题，改进生成式视觉对话

通过辅助目标激励Qbot多样性提问以减少重复, 从而达到更好的视觉对话效果, 在保证与前期研究同等图像相关性的同时, 大大提升了对话的多样性、一致性、流畅度和细节。

Sep, 2019

视觉对话的大规模预训练: 一个简单的最先进基准线

本文提出了一种基于ViLBERT的方法，该方法采用与Visual Dialog相关的视觉语言数据集的预训练，随后转移到Visual Dialog的训练上。文中还发现，在Visual Dialog中使用密集注释进行微调，可以提高NDCG，但会降低MRR。

Dec, 2019

VD-BERT: 一个与BERT结合的统一视觉和对话Transformer

该研究提出的VD-BERT框架，是一种简单且有效的视觉-对话Transformer编码器，可以通过统一的编码器捕获图像和多回合对话之间的交互，并通过与BERT语言模型的整合实现回答的排名和生成，同时无需预训练外部视觉-语言数据即可获得最新的最高水平。

Apr, 2020

通过对比学习提高视觉对话中的跨模态理解

本文提出了基于VD-BERT模型的ICMU方法，通过四向对比学习区分不同的输入来提高跨模态理解，支持多次视觉对话，改善视觉对话模型的跨模态理解，并在VisDial数据集上得到了令人满意的结果。

Apr, 2022

对话必将继续：通过生成自训练来改善视觉对话

本文提出了一种名为生成自我训练的半监督学习方法，利用网络上的无标注图像生成合成对话并结合原始数据进行对话训练, 其中对抗攻击等问题进行对抗性评估，目前实验结果在两种数据集上都取得了最新的最佳表现。

May, 2022

统一多模态模型结合非可能训练用于视觉对话

本文提出了一种名为UniMM-UL的统一多模态模型，它使用Unlikelihood Training方法来探索负样本中使用的有用知识，具有比先前工作更好的生成结果和与最先进技术相媲美的区分结果，并支持视觉对话理解和生成的多任务学习。

Nov, 2022

通过多轮对话中的迭代对象-实体对齐增强视觉对话状态跟踪

本文针对视觉对话任务中的对话历史信息流被忽视的问题，提出了多轮对话状态跟踪模型（MDST），通过利用对话历史学习到的状态来回答问题。实验结果表明，MDST在生成设置下的表现达到了新的最优水平，并且通过人类研究验证了其在生成长且一致的人类般答案方面的有效性。

Aug, 2024