文本和视频的桥梁: 用于视频音频场景感知对话的通用多模态Transformer

Feb, 2020

文本和视频的桥梁: 用于视频音频场景感知对话的通用多模态Transformer

Bridging Text and Video: A Universal Multimodal Transformer for Video-Audio Scene-Aware Dialog

Zekang Li, Zongjia Li, Jinchao Zhang, Yang Feng, Cheng Niu...

TL;DR该研究提出了一种通用的多模态转换器，并引入了多任务学习的方法，以解决视频聊天中的音视频场景感知对话生成任务，并将自然语言生成预训练模型扩展到多模态对话生成任务。我们的系统在该挑战中取得了最佳表现。

Abstract

audio-visual scene-aware dialog (AVSD) is a task to generate responses when chatting about a given video, which is organized as a track of the 8th Dialog System Technology Challenge (DSTC8). To solve the task, we propose a universal →

发现论文，激发创造

多模态基于注意力机制视频特征的端到端视听场景感知对话

该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进行讨论时生成响应。最终实验结果表明，使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景（视频）生成对话的质量。

Jun, 2018

从FiLM到视频：多模态背景下的多轮问答

通过 AVSD 挑战，本文提出了一种层次化编码-解码模型来回答有关视频的问题，采用预训练的 I3D 和 VGGish 模型计算视频及音频帧的语义特征，并使用 FiLM 块进行条件编码以降低维数，最终使用 LSTM 解码器通过计划采样进行训练和束搜索进行评估，相比于 AVSD 挑战组织者发布的模态融合基准模型，我们的模型实现了超过16％的相对改善，得分为0.36 BLEU -4，超过33％的得分为0.997 CIDEr。

Dec, 2018

视听场景感知对话

本论文介绍了场景感知对话任务，通过视频和音频研究场景，并在对话历史中利用上下文线索，以回答关于场景的问题；同时提出了AVSD数据集，并通过多项定量和定性指标评估了基础模型的表现，结果表明模型必须充分利用所有可用输入（视频、音频、问题和对话历史）才能在该数据集上取得最佳表现。

Jan, 2019

用于端到端视频对话系统的多模态Transformer网络

本研究提出了一种使用多模态转换网络（MTN）来编码和整合不同模态信息的视频对话系统。在对话生成过程中，我们提出了一个训练程序来模拟标记级解码，从而提高了生成响应的质量。我们在DSTC7上获得了最优秀的表现，并且我们的模型具有很好的泛化性能。

Jul, 2019

探索上下文、注意力和音频特征用于音频视觉场景感知对话

本论文探讨了以话题作为对话背景，利用多模态注意力和音视频定位技术的方法来构建端到端的自然语言对话系统，结合使用end-to-end音频分类卷积神经网络AclNet，以音视频场景感知任务数据集AVSD进行测试，并提出了改进方案算法，优于现有基线系统。

Dec, 2019

DSTC8 AVSD挑战赛的多模态指针网络Transformer

使用点积注意力结合文本和非文本特征的输入视频信息以及采用多源序列的指针网络来增强生成对话代理能力，从而在自动度量中取得高性能，在人类评估中获得第五和第六名。

Feb, 2020

DSTC8-AVSD：多模态语义Transformer网络及检索式词汇生成器

提出了一种多模态语义变形器网络，基于注意力词嵌入层的变形器架构和查询单词嵌入层生成单词。该模型在 AVSD 任务中取得了优异的表现。

Apr, 2020

使用视听Transformer进行场景感知对话和推理，并进行联合师生学习

本文介绍了第三个AVSD挑战赛，其包括时间推理的任务和新的数据集，在这个数据集中，人类生成了时间推理数据。文章提出了基于AV-transformer的基线系统，并通过注意力多模态融合、联合师生学习和模型组合技术扩展了基线系统，提高了AVSD数据集的性能，同时提出了两种AVSD的时间推理方法:一种是基于注意力的，一种是基于时间域的区域建议网络。

Oct, 2021

基于Transformer的视频表示的视听场景感知对话生成

本研究探讨使用Transformer-based 视频特征提取器在Audio Visual Scene-Aware Dialog（AVSD）中解决长期时间视觉依赖和全局视觉信息的问题，并在答案生成方面取得了更高的目标性能评分。

Feb, 2022

多模式对话理解与生成的场景感知提示

本文介绍了LingJing团队在NLPCC-2022-Shared-Task-4多模态对话理解和生成中实验的方案，通过提出情景感知提示和多任务策略来联合建模情景和对话生成的多模态理解，在场景了解和对话生成方面实现了最先进的性能。

Jul, 2022