跨模态注意力技能学习器
提出了一种新的分层对齐交叉模态注意力 (HACA) 框架来学习和选择性地融合不同模态的全局和本地时间动态,在视频字幕任务中, 首次验证了深度音频特征的卓越性能,该模型显著优于先前最佳系统并在广泛使用的 MSR-VTT 数据集上实现了新的最新成果。
Apr, 2018
提出一种神经 SLAM 方法,利用多种模态进行探索,预测可承受意义地图并在其上进行规划,从而显著提高了探索效率,实现了鲁棒的长程规划,使得机器智能能够更有效地识别视觉和语言信息。在 ALFRED 基准测试中,相对先前发表的作品,提出的 Affordance-aware Multimodal Neural SLAM(AMSLAM)方法在成功率上实现了 23.48%的新的最高水平,取得了超过 40%的改进。
Jan, 2022
本文旨在通过采用延迟控制的双向结构和自适应单调分块注意力机制来消除全局软注意机制和双向编码器对实时语音识别的阻碍,并提出了两种方法来缓解两种方法结合时的性能下降,从而成功地获得了一个在线的 LAS 模型 LC-AMoChA。
Nov, 2018
本文引入基于注意力机制的扩展方法到 option-critic 架构中,以实现带状态抽象的多样性 options 学习,有效解决了 option-critic 中出现的选项主导和频繁切换的问题,并在转移学习任务中展示出更高的效率,可解释性和重复利用性。
Jan, 2022
本文提出一种新型级联关注引导残差生成对抗网络(CAR-GAN),旨在通过音频信号重建场景。该模型通过残差模块和级联关注引导网络解决不同类型数据间的差异,并在高级语义标签领域中保持一致性,实现了跨模态音视频生成的最新进展。
Jul, 2019
该研究提出了一种多模态和时间交叉注意力框架,可以利用音频和视觉信息的自然语义和时间对齐关系来实现音频 - 视觉广义零样本学习,并在多个基准测试中取得了最先进的性能。
Jul, 2022
提出了一种多层交叉注意力融合的视听语音识别方法,通过在不同的音频 / 视觉编码器层级融合各种模态,实现了每种模态的表示学习,实验结果表明该方法在 MISP2022-AVSR 挑战数据集上达到了新的拼接最小排列字符错误率 (cpCER) 为 30.57% 的性能,并相对于前期系统获得了最多 3.17% 的相对改进,同时超过了第一名系统,获得了该数据集上的新的最先进 cpCER 为 29.13%。
Jan, 2024
通过跨模态注意力来利用互补关系在多模态情感识别中引起了广泛关注。然而,模态之间也可能存在弱互补关系,可能会导致跨模态特征表示质量较差。为了解决这个问题,我们提出了一种基于不一致性感知的跨模态注意力方法(IACA),可以根据声音和视觉模态之间的强弱互补关系自适应地选择最相关的特征。具体而言,我们设计了一个两阶段的门控机制,可以自适应地选择适当的相关特征以处理弱互补关系。通过在具有挑战性的 Aff-Wild2 数据集上进行大量实验,展示了所提模型的鲁棒性。
May, 2024