DSTC8 AVSD挑战赛的多模态指针网络Transformer
该研究论文介绍了一种基于多个研究领域的技术相互整合的新型场景感知对话系统,同时提出了基于音视频的场景感知对话系统(AVSD)挑战与数据集,该挑战要求参赛者构建一个能够对输入视频进行对话响应的系统。
Jun, 2018
该论文介绍了一种新的视频场景感知对话系统,该系统将多个研究领域的最新技术整合应用 ,包括端到端的对话技术、视觉问答技术,以及视频描述技术。通过收集一个有关人类行为视频的对话数据集,作者们使用该数据集训练出一种多模态对话模型,它可以在对视频进行讨论时生成响应。最终实验结果表明,使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景(视频)生成对话的质量。
Jun, 2018
通过 AVSD 挑战,本文提出了一种层次化编码-解码模型来回答有关视频的问题,采用预训练的 I3D 和 VGGish 模型计算视频及音频帧的语义特征,并使用 FiLM 块进行条件编码以降低维数,最终使用 LSTM 解码器通过计划采样进行训练和束搜索进行评估,相比于 AVSD 挑战组织者发布的模态融合基准模型,我们的模型实现了超过16%的相对改善,得分为0.36 BLEU -4,超过33%的得分为0.997 CIDEr。
Dec, 2018
本论文介绍了场景感知对话任务,通过视频和音频研究场景,并在对话历史中利用上下文线索,以回答关于场景的问题;同时提出了AVSD数据集,并通过多项定量和定性指标评估了基础模型的表现,结果表明模型必须充分利用所有可用输入(视频、音频、问题和对话历史)才能在该数据集上取得最佳表现。
Jan, 2019
本文提出了一种直观的机制,通过多个阶段融合特征和注意力以很好地集成多模式特征,以解决音频视觉场景感知对话任务,并进一步分析了各种最先进的模型在该任务上的泛化能力。
Aug, 2019
该研究提出了一种通用的多模态转换器,并引入了多任务学习的方法,以解决视频聊天中的音视频场景感知对话生成任务,并将自然语言生成预训练模型扩展到多模态对话生成任务。我们的系统在该挑战中取得了最佳表现。
Feb, 2020
提出了一种多模态语义变形器网络,基于注意力词嵌入层的变形器架构和查询单词嵌入层生成单词。该模型在 AVSD 任务中取得了优异的表现。
Apr, 2020
文章提出了一个基于多模态融合和注意力机制的开放域问答系统,用于解决Audio-Video Scene-Aware Dialogue(AVSD)任务,结果表明基于问答假设的数据增广技术和模型均能在DSTC7-AVSD数据集上带来显著的改进。
Jul, 2020
本文介绍了第三个AVSD挑战赛,其包括时间推理的任务和新的数据集,在这个数据集中,人类生成了时间推理数据。文章提出了基于AV-transformer的基线系统,并通过注意力多模态融合、联合师生学习和模型组合技术扩展了基线系统,提高了AVSD数据集的性能,同时提出了两种AVSD的时间推理方法:一种是基于注意力的,一种是基于时间域的区域建议网络。
Oct, 2021
本研究探讨使用Transformer-based 视频特征提取器在Audio Visual Scene-Aware Dialog(AVSD)中解决长期时间视觉依赖和全局视觉信息的问题,并在答案生成方面取得了更高的目标性能评分。
Feb, 2022