视听场景感知对话
该研究论文介绍了一种基于多个研究领域的技术相互整合的新型场景感知对话系统,同时提出了基于音视频的场景感知对话系统 (AVSD) 挑战与数据集,该挑战要求参赛者构建一个能够对输入视频进行对话响应的系统。
Jun, 2018
该论文介绍了一种新的视频场景感知对话系统,该系统将多个研究领域的最新技术整合应用 ,包括端到端的对话技术、视觉问答技术,以及视频描述技术。通过收集一个有关人类行为视频的对话数据集,作者们使用该数据集训练出一种多模态对话模型,它可以在对视频进行讨论时生成响应。最终实验结果表明,使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景(视频)生成对话的质量。
Jun, 2018
本论文探讨了以话题作为对话背景,利用多模态注意力和音视频定位技术的方法来构建端到端的自然语言对话系统,结合使用 end-to-end 音频分类卷积神经网络 AclNet,以音视频场景感知任务数据集 AVSD 进行测试,并提出了改进方案算法,优于现有基线系统。
Dec, 2019
本文提出了一种基于数据驱动学习的音视频感知对话基准方法,采用注意力机制从海量传感器中区分实用信号和干扰信号,实验结果表明此方法在音视频感知数据集中性能超过现有最先进方法 20% 以上。
Apr, 2019
通过结合多模式注意力机制与端到端音频分类卷积神经网络,实现智能虚拟助手(IVA)对语音、视觉场景的理解与自然对话,超越了基准系统表现。
Dec, 2018
文章提出了一个基于多模态融合和注意力机制的开放域问答系统,用于解决 Audio-Video Scene-Aware Dialogue(AVSD)任务,结果表明基于问答假设的数据增广技术和模型均能在 DSTC7-AVSD 数据集上带来显著的改进。
Jul, 2020
本文提出了一种直观的机制,通过多个阶段融合特征和注意力以很好地集成多模式特征,以解决音频视觉场景感知对话任务,并进一步分析了各种最先进的模型在该任务上的泛化能力。
Aug, 2019
本研究探讨使用 Transformer-based 视频特征提取器在 Audio Visual Scene-Aware Dialog(AVSD)中解决长期时间视觉依赖和全局视觉信息的问题,并在答案生成方面取得了更高的目标性能评分。
Feb, 2022
通过 AVSD 挑战,本文提出了一种层次化编码 - 解码模型来回答有关视频的问题,采用预训练的 I3D 和 VGGish 模型计算视频及音频帧的语义特征,并使用 FiLM 块进行条件编码以降低维数,最终使用 LSTM 解码器通过计划采样进行训练和束搜索进行评估,相比于 AVSD 挑战组织者发布的模态融合基准模型,我们的模型实现了超过 16%的相对改善,得分为 0.36 BLEU -4,超过 33%的得分为 0.997 CIDEr。
Dec, 2018
本文介绍了第三个 AVSD 挑战赛,其包括时间推理的任务和新的数据集,在这个数据集中,人类生成了时间推理数据。文章提出了基于 AV-transformer 的基线系统,并通过注意力多模态融合、联合师生学习和模型组合技术扩展了基线系统,提高了 AVSD 数据集的性能,同时提出了两种 AVSD 的时间推理方法:一种是基于注意力的,一种是基于时间域的区域建议网络。
Oct, 2021