从FiLM到视频：多模态背景下的多轮问答

Dec, 2018

从FiLM到视频：多模态背景下的多轮问答

From FiLM to Video: Multi-turn Question Answering with Multi-modal Context

Dat Tien Nguyen, Shikhar Sharma, Hannes Schulz, Layla El Asri

TL;DR通过 AVSD 挑战，本文提出了一种层次化编码-解码模型来回答有关视频的问题，采用预训练的 I3D 和 VGGish 模型计算视频及音频帧的语义特征，并使用 FiLM 块进行条件编码以降低维数，最终使用 LSTM 解码器通过计划采样进行训练和束搜索进行评估，相比于 AVSD 挑战组织者发布的模态融合基准模型，我们的模型实现了超过16％的相对改善，得分为0.36 BLEU -4，超过33％的得分为0.997 CIDEr。

Abstract

Understanding audio-visual content and the ability to have an informative conversation about it have both been challenging areas for intelligent systems. The Audio Visual Scene-aware Dialog (AVSD) challenge, organized as a track of the Dialog System Technology Challenge 7 (DSTC7), prop

发现论文，激发创造

多模态基于注意力机制视频特征的端到端视听场景感知对话

该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进行讨论时生成响应。最终实验结果表明，使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景（视频）生成对话的质量。

Jun, 2018

视听场景感知对话

本论文介绍了场景感知对话任务，通过视频和音频研究场景，并在对话历史中利用上下文线索，以回答关于场景的问题；同时提出了AVSD数据集，并通过多项定量和定性指标评估了基础模型的表现，结果表明模型必须充分利用所有可用输入（视频、音频、问题和对话历史）才能在该数据集上取得最佳表现。

Jan, 2019

基于反应式多阶段特征融合的多模态对话建模

本文提出了一种直观的机制，通过多个阶段融合特征和注意力以很好地集成多模式特征，以解决音频视觉场景感知对话任务，并进一步分析了各种最先进的模型在该任务上的泛化能力。

Aug, 2019

探索上下文、注意力和音频特征用于音频视觉场景感知对话

本论文探讨了以话题作为对话背景，利用多模态注意力和音视频定位技术的方法来构建端到端的自然语言对话系统，结合使用end-to-end音频分类卷积神经网络AclNet，以音视频场景感知任务数据集AVSD进行测试，并提出了改进方案算法，优于现有基线系统。

Dec, 2019

DSTC8 AVSD挑战赛的多模态指针网络Transformer

使用点积注意力结合文本和非文本特征的输入视频信息以及采用多源序列的指针网络来增强生成对话代理能力，从而在自动度量中取得高性能，在人类评估中获得第五和第六名。

Feb, 2020

多模态洗牌变换器的视频对话动态图表示学习

本研究介绍了一种语义控制的多模态Shuffled Transformer推理框架，它包括一系列Transformer模块，用于解决AVSD任务中的多模态学习和推理，并提出了一种新型的动态场景图表示学习方法。实验结果表明，该模型在所有度量标准上均取得了最先进的性能。

Jul, 2020

通过数据增强的问答方法进行多模态对话状态跟踪

文章提出了一个基于多模态融合和注意力机制的开放域问答系统，用于解决Audio-Video Scene-Aware Dialogue（AVSD）任务，结果表明基于问答假设的数据增广技术和模型均能在DSTC7-AVSD数据集上带来显著的改进。

Jul, 2020

Pano-AVQA: 360°视频上基于感知的音视问题回答

本文提出了Pano-AVQA基准测试用于评估全景视频中音频-视觉关系和球形空间关系的语义理解。使用在线获取的5.4K个视频剪辑，收集了两种类型的新型问题-答案对。通过球形空间嵌入和多模态训练目标，使用多个基于Transformer的模型从Pano-AVQA中进行训练，结果表明我们的提出的球形空间嵌入和多模态训练目标对数据集上全景环境的语义理解有很好的帮助。

Oct, 2021

基于Transformer的视频表示的视听场景感知对话生成

本研究探讨使用Transformer-based 视频特征提取器在Audio Visual Scene-Aware Dialog（AVSD）中解决长期时间视觉依赖和全局视觉信息的问题，并在答案生成方面取得了更高的目标性能评分。

Feb, 2022

在动态音视频场景中学习回答问题

本文研究了Audio-Visual Question Answering（AVQA）任务，提出了一个包含超过45K个问题-答案对的MUSIC-AVQA数据集并使用多模态知识和视听场景的时空推理来解决该问题，结果表明我们的方法优于现有的A-V和AVQA方法。

Mar, 2022