基于反应式多阶段特征融合的多模态对话建模
该论文介绍了一种新的视频场景感知对话系统,该系统将多个研究领域的最新技术整合应用 ,包括端到端的对话技术、视觉问答技术,以及视频描述技术。通过收集一个有关人类行为视频的对话数据集,作者们使用该数据集训练出一种多模态对话模型,它可以在对视频进行讨论时生成响应。最终实验结果表明,使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景(视频)生成对话的质量。
Jun, 2018
文章提出了一个基于多模态融合和注意力机制的开放域问答系统,用于解决 Audio-Video Scene-Aware Dialogue(AVSD)任务,结果表明基于问答假设的数据增广技术和模型均能在 DSTC7-AVSD 数据集上带来显著的改进。
Jul, 2020
本研究探讨使用 Transformer-based 视频特征提取器在 Audio Visual Scene-Aware Dialog(AVSD)中解决长期时间视觉依赖和全局视觉信息的问题,并在答案生成方面取得了更高的目标性能评分。
Feb, 2022
使用点积注意力结合文本和非文本特征的输入视频信息以及采用多源序列的指针网络来增强生成对话代理能力,从而在自动度量中取得高性能,在人类评估中获得第五和第六名。
Feb, 2020
该研究提出了一种通用的多模态转换器,并引入了多任务学习的方法,以解决视频聊天中的音视频场景感知对话生成任务,并将自然语言生成预训练模型扩展到多模态对话生成任务。我们的系统在该挑战中取得了最佳表现。
Feb, 2020
通过 AVSD 挑战,本文提出了一种层次化编码 - 解码模型来回答有关视频的问题,采用预训练的 I3D 和 VGGish 模型计算视频及音频帧的语义特征,并使用 FiLM 块进行条件编码以降低维数,最终使用 LSTM 解码器通过计划采样进行训练和束搜索进行评估,相比于 AVSD 挑战组织者发布的模态融合基准模型,我们的模型实现了超过 16%的相对改善,得分为 0.36 BLEU -4,超过 33%的得分为 0.997 CIDEr。
Dec, 2018
本论文介绍了场景感知对话任务,通过视频和音频研究场景,并在对话历史中利用上下文线索,以回答关于场景的问题;同时提出了 AVSD 数据集,并通过多项定量和定性指标评估了基础模型的表现,结果表明模型必须充分利用所有可用输入(视频、音频、问题和对话历史)才能在该数据集上取得最佳表现。
Jan, 2019
本文提出了一种基于循环神经网络的多步关注机制的多模态联合注意网络(JMAN),用于对视频进行推理,该模型在每个推理过程中联合考虑了视觉和文本表示,以更好地集成两种不同模态的信息。与 AVSD 组织发布的基线相比,我们的模型在 ROUGE-L 得分和 CIDEr 得分上相对提高了 12.1%和 22.4%。
Jan, 2020
本论文探讨了以话题作为对话背景,利用多模态注意力和音视频定位技术的方法来构建端到端的自然语言对话系统,结合使用 end-to-end 音频分类卷积神经网络 AclNet,以音视频场景感知任务数据集 AVSD 进行测试,并提出了改进方案算法,优于现有基线系统。
Dec, 2019
通过结合多模式注意力机制与端到端音频分类卷积神经网络,实现智能虚拟助手(IVA)对语音、视觉场景的理解与自然对话,超越了基准系统表现。
Dec, 2018