多模态基于注意力机制视频特征的端到端视听场景感知对话

Jun, 2018

多模态基于注意力机制视频特征的端到端视听场景感知对话

End-to-End Audio Visual Scene-Aware Dialog using Multimodal Attention-Based Video Features

Chiori Hori, Huda Alamri, Jue Wang, Gordon Wichern, Takaaki Hori...

TL;DR该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进行讨论时生成响应。最终实验结果表明，使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景（视频）生成对话的质量。

Abstract

dialog systems need to understand dynamic visual scenes in order to have conversations with users about the objects and events around them. Scene-aware →

dialog systems visual scenes end-to-end dialog technologies visual question answering (vqa)video description technologies

发现论文，激发创造

视听场景感知对话

本论文介绍了场景感知对话任务，通过视频和音频研究场景，并在对话历史中利用上下文线索，以回答关于场景的问题；同时提出了 AVSD 数据集，并通过多项定量和定性指标评估了基础模型的表现，结果表明模型必须充分利用所有可用输入（视频、音频、问题和对话历史）才能在该数据集上取得最佳表现。

Jan, 2019

基于反应式多阶段特征融合的多模态对话建模

本文提出了一种直观的机制，通过多个阶段融合特征和注意力以很好地集成多模式特征，以解决音频视觉场景感知对话任务，并进一步分析了各种最先进的模型在该任务上的泛化能力。

Aug, 2019

探索上下文、注意力和音频特征用于音频视觉场景感知对话

本论文探讨了以话题作为对话背景，利用多模态注意力和音视频定位技术的方法来构建端到端的自然语言对话系统，结合使用 end-to-end 音频分类卷积神经网络 AclNet，以音视频场景感知任务数据集 AVSD 进行测试，并提出了改进方案算法，优于现有基线系统。

Dec, 2019

通过数据增强的问答方法进行多模态对话状态跟踪

文章提出了一个基于多模态融合和注意力机制的开放域问答系统，用于解决 Audio-Video Scene-Aware Dialogue（AVSD）任务，结果表明基于问答假设的数据增广技术和模型均能在 DSTC7-AVSD 数据集上带来显著的改进。

Jul, 2020

音频视觉场景感知对话的上下文、注意力和音频特征探索

通过结合多模式注意力机制与端到端音频分类卷积神经网络，实现智能虚拟助手（IVA）对语音、视觉场景的理解与自然对话，超越了基准系统表现。

Dec, 2018

面向场景感知对话系统的多步骤多模态注意力网络

本文提出了一种基于循环神经网络的多步关注机制的多模态联合注意网络（JMAN），用于对视频进行推理，该模型在每个推理过程中联合考虑了视觉和文本表示，以更好地集成两种不同模态的信息。与 AVSD 组织发布的基线相比，我们的模型在 ROUGE-L 得分和 CIDEr 得分上相对提高了 12.1％和 22.4％。

Jan, 2020

DSTC7 的音视频场景感知对话（AVSD）竞赛

该研究论文介绍了一种基于多个研究领域的技术相互整合的新型场景感知对话系统，同时提出了基于音视频的场景感知对话系统 (AVSD) 挑战与数据集，该挑战要求参赛者构建一个能够对输入视频进行对话响应的系统。

Jun, 2018

从 FiLM 到视频：多模态背景下的多轮问答

通过 AVSD 挑战，本文提出了一种层次化编码 - 解码模型来回答有关视频的问题，采用预训练的 I3D 和 VGGish 模型计算视频及音频帧的语义特征，并使用 FiLM 块进行条件编码以降低维数，最终使用 LSTM 解码器通过计划采样进行训练和束搜索进行评估，相比于 AVSD 挑战组织者发布的模态融合基准模型，我们的模型实现了超过 16％的相对改善，得分为 0.36 BLEU -4，超过 33％的得分为 0.997 CIDEr。

Dec, 2018

文本和视频的桥梁：用于视频音频场景感知对话的通用多模态 Transformer

该研究提出了一种通用的多模态转换器，并引入了多任务学习的方法，以解决视频聊天中的音视频场景感知对话生成任务，并将自然语言生成预训练模型扩展到多模态对话生成任务。我们的系统在该挑战中取得了最佳表现。

Feb, 2020

音频 - 视觉场景感知对话的简单基线

本文提出了一种基于数据驱动学习的音视频感知对话基准方法，采用注意力机制从海量传感器中区分实用信号和干扰信号，实验结果表明此方法在音视频感知数据集中性能超过现有最先进方法 20% 以上。

Apr, 2019