情感视觉对话：基于视觉对话的情绪推理的大规模基准测试

Aug, 2023

情感视觉对话：基于视觉对话的情绪推理的大规模基准测试

Affective Visual Dialog: A Large-Scale Benchmark for Emotional Reasoning Based on Visually Grounded Conversations

Kilichbek Haydarov, Xiaoqian Shen, Avinash Madasu, Mahmoud Salem, Jia Li...

TL;DR我们引入情感视觉对话，这是一个情感解释和推理任务，作为研究在视觉对话中理解情感形成的测试基准。该任务涉及三个技能：（1）基于对话的问答（2）基于对话的情感预测和（3）基于对话的情感解释生成。我们的主要贡献是收集了一个大规模的数据集，称为 AffectVisDial，包含 50,000 个 10 轮的视觉对话，以及结论性的情感归因和基于对话的情感解释，总计达 27,180 个工作小时。我们解释了在收集数据集时的设计决策，并介绍了与对话参与者相关的提问者和回答者任务。我们训练并展示了基于最先进模型的坚实的情感视觉对话基准。值得注意的是，我们的模型生成的回答显示了对视觉对话中情感推理能力有希望的结果。我们的项目页面可在此 https URL 找到。

Abstract

We introduce affective visual dialog, an emotion explanation and reasoning task as a testbed for research on understanding the formation of emotions in →

affective visual dialog emotion explanation visually grounded conversations large-scale dataset emotion reasoning abilities

发现论文，激发创造

视觉对话

本文介绍了视觉对话任务，即通过图像、对话历史和问题，要求 AI 智能体以自然、对话式的语言与人类进行有意义的对话，并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上，利用 Latre Fusion、Hierarchical Recurrent Encoder 和 Memory Network 等三个编码器和两个解码器（生成式和判别式），超越了许多复杂的基准线，并采用了基于检索的评估协议，Quantify 了机器和人类在视觉对话任务上的性能差距，进而演示了第一款 “视觉聊天机器人”。

Nov, 2016

面向目标驱动的二元交流的情感面孔

本研究介绍了一种视频框架，用于建模双人对话中口头和非口头交流之间的关联，提出了一种通过大型语言模型和视觉 - 语言模型构成的对话建模方法，并提出了一种新的无剧本对话视频数据集，实验和可视化结果表明，该方法能够生成显著更具社交适切性的监听者。

Jan, 2023

情感驱动的对话生成

本文介绍了一种能够控制情感内容的情感驱动对话系统的方法，通过使用连续的情感表示来模拟词和句子级别的情感，并在推理过程中使用重新排名程序来获取最具情感相关性的响应。

Apr, 2019

情感：学习真实世界视觉数据的情感解释

本文介绍一项研究，通过一个包含 85,007 张公开图片、526,749 个情感反应和自由文本解释的大规模数据集，探讨使用自然语言表达对给定视觉刺激的情感反应所引起的情绪反应。研究提出了三个问题来解决这个新任务，并介绍了一些方法和开源数据集。

Oct, 2022

VDialogUE: 一个统一的可视对话评估基准

提出了 VDialogUE 基准测试，定义了五个核心多模态对话任务，并提出了一种综合评估模型性能的新评估指标 VDscore，同时介绍了一种名为 VISIT 的基准模型，该模型通过两阶段的预训练策略逐步构建多模态基础和对话能力，以促进通用多模态对话系统的发展。

Sep, 2023

CLEVR-Dialog: 一个用于视觉对话多轮推理的诊断数据集

开发了一个名为 CLEVR-Dialog 的大型诊断数据集，以研究视觉对话中的多轮推理（multiround reasoning），在其中所有视觉对话的所有方面都得到了完全注释。使用 CLEVR-Dialog 测量了标准视觉对话模型的性能，特别是针对视觉指代消解（coreference resolution）的表现，并于之前数据集中的模型进行了比较，发现了其中的差异。

Mar, 2019

对话中的话语级情感推理：因果发现方法

本文提出了一种名为 CACD 的新型因果推断方法，旨在通过设计一个公共的骨架和生成替代的隐含因素来推导对话中的因果关系，该方法在情感相关领域的六个数据集上展示出比 SOTA 基准更好的性能表现。

May, 2023

从 VQA 数据中学习视觉对话代理

研究如何提高视觉对话代理的适应性，使其可以在不忘记如何与人交谈的情况下，高效地适应新任务。通过分解意图和语言，减少在新任务中语言漂移的情况，并通过定性结果、自动化指标和人类研究证明我们的模型可以适应新任务并保持语言质量。

Jul, 2020

视听场景感知对话

本论文介绍了场景感知对话任务，通过视频和音频研究场景，并在对话历史中利用上下文线索，以回答关于场景的问题；同时提出了 AVSD 数据集，并通过多项定量和定性指标评估了基础模型的表现，结果表明模型必须充分利用所有可用输入（视频、音频、问题和对话历史）才能在该数据集上取得最佳表现。

Jan, 2019

音频 - 视觉场景感知对话的简单基线

本文提出了一种基于数据驱动学习的音视频感知对话基准方法，采用注意力机制从海量传感器中区分实用信号和干扰信号，实验结果表明此方法在音视频感知数据集中性能超过现有最先进方法 20% 以上。

Apr, 2019