视觉对话的模态平衡模型

AAAIJan, 2020

Modality-Balanced Models for Visual Dialogue

Hyounghun Kim, Hao Tan, Mohit Bansal

TL;DR该论文探讨了通过使用图像和对话背景信息生成下一步回答的视觉对话任务。因为一些对话问题只需要看图像，没有历史对话背景的信息，因此先前的联合模式变得依赖和容易陷入对话历史的记忆中，相比之下，仅使用图像的模型更具有普适性，并且在 NDCG 指标上表现更好。因此，作者提出了一种结合两种模型的方法，并在视觉对话挑战赛中取得优异的成绩。

Abstract

The visual dialog task requires a model to exploit both image and conversational context information to generate the next response to the dialogue. However, via manual analysis, we find that a large number of conversational questions can be answered by only looking at the image without

visual dialog image-only model multimodal model ensemble ndcg

发现论文，激发创造

DualVD：一种用于视觉对话中深度视觉理解的自适应双编码模型

该研究提出了一种新的模型来从视觉和语义两个角度描述图像，在多角度图像特征的基础上提出了特征选择框架，逐层适应性地捕捉问题相关信息，并在基准视觉对话数据集上取得了最先进的结果。更重要的是，通过可视化门控值，我们能够确定视觉和语义哪个模式在回答当前问题中发挥更重要的作用，为我们理解人类认知在视觉对话中的作用提供了见解。

Nov, 2019

IMAD: 图像增强的多模态对话

该研究提出了一种基于多模态视角的对话系统，并通过构建 IMAD 数据集和进行基线模型训练，证明了其在图像解释、数据集建设和模型表现方面具有潜在优势。

May, 2023

视觉对话中的历史记录：我们真的需要吗？

本文提出基于对话历史信息的注意力机制可以有效提高视觉对话系统的性能，并呈现出一种新的评估数据集进行基准测试，取得了 63% 的 NDCG 值。

May, 2020

基于图片 - 问题 - 答案协同的视觉对话网络

本研究提出了一种图像 - 问题 - 答案协同网络来评估答案的作用，该网络将传统的一阶段解决方案扩展为两个阶段，并在 Visual Dialog v1.0 数据集中取得了最新的最高成果。

Feb, 2019

基于图像的对话：自然问题和回答生成的多模态上下文

该研究提出了一种新颖的任务 —— 基于图片的对话（IGC），通过图片来约束话题从而产生更高质量的对话，并引入了一个通过众包来构建的多目标参考数据集。实验结果表明，将视觉和文本相结合可以提高对话的质量，而对人的表现与神经和检索结构之间的差距表明多模态 IGC 是一个有趣的对话研究挑战。

Jan, 2017

多模态对话回应生成

本论文提出了一种多模态对话生成模型，通过一种新颖的会话代理 Divter，该模型在低资源情况下学习多模态对话，利用文本和图像对对话历史进行响应，并取得了最先进的结果。

Oct, 2021

视觉对话

本文介绍了视觉对话任务，即通过图像、对话历史和问题，要求 AI 智能体以自然、对话式的语言与人类进行有意义的对话，并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上，利用 Latre Fusion、Hierarchical Recurrent Encoder 和 Memory Network 等三个编码器和两个解码器（生成式和判别式），超越了许多复杂的基准线，并采用了基于检索的评估协议，Quantify 了机器和人类在视觉对话任务上的性能差距，进而演示了第一款 “视觉聊天机器人”。

Nov, 2016

VU-BERT：一个视觉对话的统一框架

本文提出了一种名为 VU-BERT 图文联合嵌入的框架，通过用 patch projection 获取视觉嵌入来简化模型，从而解决了现有研究中用于建模交互的具有特定模态的模块难以使用的问题，并在可视对话任务上取得了较高的竞争性表现。

Feb, 2022

多模态开放领域对话

本文旨在研究结合先进的开放域对话代理和视觉模型，以实现多模态对话的目标，研究不同的图像融合方案和域自适应预训练和微调策略，并展示了我们最好的模型不仅在多模态对话方面优于现有的强模型，而且在纯文本对话方面表现也和其前身 BlenderBot 一样好，同时我们还研究并整合了安全组件，展示这种努力不会削弱模型性能方面的吸引力度量。

Oct, 2020

基于游戏的视频上下文对话

本文介绍了基于现场足球比赛视频和 Twitch.tv 聊天记录的多说话者、视觉语境下的对话数据集，利用此数据集开发出具有多模态对话技能和视觉定位应用的对话模型，并通过多项评估指标和人类评估研究验证其效果。

Sep, 2018