本论文介绍了场景感知对话任务,通过视频和音频研究场景,并在对话历史中利用上下文线索,以回答关于场景的问题;同时提出了 AVSD 数据集,并通过多项定量和定性指标评估了基础模型的表现,结果表明模型必须充分利用所有可用输入(视频、音频、问题和对话历史)才能在该数据集上取得最佳表现。
Jan, 2019
通过结合多模式注意力机制与端到端音频分类卷积神经网络,实现智能虚拟助手(IVA)对语音、视觉场景的理解与自然对话,超越了基准系统表现。
Dec, 2018
本论文探讨了以话题作为对话背景,利用多模态注意力和音视频定位技术的方法来构建端到端的自然语言对话系统,结合使用 end-to-end 音频分类卷积神经网络 AclNet,以音视频场景感知任务数据集 AVSD 进行测试,并提出了改进方案算法,优于现有基线系统。
Dec, 2019
该论文介绍了一种新的视频场景感知对话系统,该系统将多个研究领域的最新技术整合应用 ,包括端到端的对话技术、视觉问答技术,以及视频描述技术。通过收集一个有关人类行为视频的对话数据集,作者们使用该数据集训练出一种多模态对话模型,它可以在对视频进行讨论时生成响应。最终实验结果表明,使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景(视频)生成对话的质量。
Jun, 2018
该研究论文介绍了一种基于多个研究领域的技术相互整合的新型场景感知对话系统,同时提出了基于音视频的场景感知对话系统 (AVSD) 挑战与数据集,该挑战要求参赛者构建一个能够对输入视频进行对话响应的系统。
本文提出了一种直观的机制,通过多个阶段融合特征和注意力以很好地集成多模式特征,以解决音频视觉场景感知对话任务,并进一步分析了各种最先进的模型在该任务上的泛化能力。
Aug, 2019
该研究提出了一种用于多媒体内容的特定内容验证问题的基准方法和实验方案:检测音频和视频之间的差异。通过设计和优化音频 - 视觉场景分类器,将其与使用两个模态性的已有分类基线进行比较。然后,通过将该分类器分别应用于音频和视觉模态,我们可以检测它们之间的场景分类不一致性。为了促进进一步的研究并提供一个共同的评估平台,我们介绍了一个模拟这种不一致性的实验方案和基准数据集。我们的方法在场景分类方面取得了最先进的结果,并在音频 - 视觉差异检测方面取得了有希望的成果,突显了其在内容验证应用中的潜力。
May, 2024
文章提出了一个基于多模态融合和注意力机制的开放域问答系统,用于解决 Audio-Video Scene-Aware Dialogue(AVSD)任务,结果表明基于问答假设的数据增广技术和模型均能在 DSTC7-AVSD 数据集上带来显著的改进。
Jul, 2020
研究如何提高视觉对话代理的适应性,使其可以在不忘记如何与人交谈的情况下,高效地适应新任务。通过分解意图和语言,减少在新任务中语言漂移的情况,并通过定性结果、自动化指标和人类研究证明我们的模型可以适应新任务并保持语言质量。
本研究探讨使用 Transformer-based 视频特征提取器在 Audio Visual Scene-Aware Dialog(AVSD)中解决长期时间视觉依赖和全局视觉信息的问题,并在答案生成方面取得了更高的目标性能评分。
Feb, 2022