音频 - 视觉场景感知对话的简单基线

CVPRApr, 2019

音频 - 视觉场景感知对话的简单基线

A Simple Baseline for Audio-Visual Scene-Aware Dialog

Idan Schwartz, Alexander Schwing, Tamir Hazan

TL;DR本文提出了一种基于数据驱动学习的音视频感知对话基准方法，采用注意力机制从海量传感器中区分实用信号和干扰信号，实验结果表明此方法在音视频感知数据集中性能超过现有最先进方法 20% 以上。

Abstract

The recently proposed audio-visual scene-aware dialog task paves the way to a more data-driven way of learning virtual assistants, smart speakers

audio-visual scene-aware dialog virtual assistants attention mechanism smart speakers data-driven learning

发现论文，激发创造

视听场景感知对话

本论文介绍了场景感知对话任务，通过视频和音频研究场景，并在对话历史中利用上下文线索，以回答关于场景的问题；同时提出了 AVSD 数据集，并通过多项定量和定性指标评估了基础模型的表现，结果表明模型必须充分利用所有可用输入（视频、音频、问题和对话历史）才能在该数据集上取得最佳表现。

Jan, 2019

音频视觉场景感知对话的上下文、注意力和音频特征探索

通过结合多模式注意力机制与端到端音频分类卷积神经网络，实现智能虚拟助手（IVA）对语音、视觉场景的理解与自然对话，超越了基准系统表现。

Dec, 2018

探索上下文、注意力和音频特征用于音频视觉场景感知对话

本论文探讨了以话题作为对话背景，利用多模态注意力和音视频定位技术的方法来构建端到端的自然语言对话系统，结合使用 end-to-end 音频分类卷积神经网络 AclNet，以音视频场景感知任务数据集 AVSD 进行测试，并提出了改进方案算法，优于现有基线系统。

Dec, 2019

多模态基于注意力机制视频特征的端到端视听场景感知对话

该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进行讨论时生成响应。最终实验结果表明，使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景（视频）生成对话的质量。

Jun, 2018

DSTC7 的音视频场景感知对话（AVSD）竞赛

该研究论文介绍了一种基于多个研究领域的技术相互整合的新型场景感知对话系统，同时提出了基于音视频的场景感知对话系统 (AVSD) 挑战与数据集，该挑战要求参赛者构建一个能够对输入视频进行对话响应的系统。

Jun, 2018

基于反应式多阶段特征融合的多模态对话建模

本文提出了一种直观的机制，通过多个阶段融合特征和注意力以很好地集成多模式特征，以解决音频视觉场景感知对话任务，并进一步分析了各种最先进的模型在该任务上的泛化能力。

Aug, 2019

视频中的视觉和音频场景分类：一种基线方法和实验协议

该研究提出了一种用于多媒体内容的特定内容验证问题的基准方法和实验方案：检测音频和视频之间的差异。通过设计和优化音频 - 视觉场景分类器，将其与使用两个模态性的已有分类基线进行比较。然后，通过将该分类器分别应用于音频和视觉模态，我们可以检测它们之间的场景分类不一致性。为了促进进一步的研究并提供一个共同的评估平台，我们介绍了一个模拟这种不一致性的实验方案和基准数据集。我们的方法在场景分类方面取得了最先进的结果，并在音频 - 视觉差异检测方面取得了有希望的成果，突显了其在内容验证应用中的潜力。

May, 2024

通过数据增强的问答方法进行多模态对话状态跟踪

文章提出了一个基于多模态融合和注意力机制的开放域问答系统，用于解决 Audio-Video Scene-Aware Dialogue（AVSD）任务，结果表明基于问答假设的数据增广技术和模型均能在 DSTC7-AVSD 数据集上带来显著的改进。

Jul, 2020

从 VQA 数据中学习视觉对话代理

研究如何提高视觉对话代理的适应性，使其可以在不忘记如何与人交谈的情况下，高效地适应新任务。通过分解意图和语言，减少在新任务中语言漂移的情况，并通过定性结果、自动化指标和人类研究证明我们的模型可以适应新任务并保持语言质量。

Jul, 2020

基于 Transformer 的视频表示的视听场景感知对话生成

本研究探讨使用 Transformer-based 视频特征提取器在 Audio Visual Scene-Aware Dialog（AVSD）中解决长期时间视觉依赖和全局视觉信息的问题，并在答案生成方面取得了更高的目标性能评分。

Feb, 2022