跨模态注意力技能学习器

NIPSNov, 2017

Crossmodal Attentive Skill Learner

Shayegan Omidshafiei, Dong-Ki Kim, Jason Pazis, Jonathan P. How

TL;DR本文介绍了一种基于 A2OC 架构的 CASL 方法，可实现多个感官输入的层次强化学习，通过在 Atari 2600 游戏中的应用，证明了该方法的有效性和可扩展性，同时也提供了开源代码。

Abstract

This paper presents the crossmodal attentive skill learner (CASL), integrated with the recently-introduced asynchronous advantage option-critic (A2OC) architecture [Harb et al., 2017] to enable hierarchical

crossmodal attentive skill learner asynchronous advantage option-critic reinforcement learning transfer learning atari 2600

发现论文，激发创造

甩手语识别的跨模态相互学习

该研究提出了一种基于变压器的跨模态相互学习框架，用于提高 Cued Speech 系统的自动识别性能，并在中文、法语和英语语言中取得了显着的识别性能提升。

Dec, 2022

观看、倾听和描述：全局和局部对齐的跨模态关注力用于视频字幕生成

提出了一种新的分层对齐交叉模态注意力 (HACA) 框架来学习和选择性地融合不同模态的全局和本地时间动态，在视频字幕任务中，首次验证了深度音频特征的卓越性能，该模型显著优于先前最佳系统并在广泛使用的 MSR-VTT 数据集上实现了新的最新成果。

Apr, 2018

具有可操作感知的多模态神经 SLAM 学习行为

提出一种神经 SLAM 方法，利用多种模态进行探索，预测可承受意义地图并在其上进行规划，从而显著提高了探索效率，实现了鲁棒的长程规划，使得机器智能能够更有效地识别视觉和语言信息。在 ALFRED 基准测试中，相对先前发表的作品，提出的 Affordance-aware Multimodal Neural SLAM（AMSLAM）方法在成功率上实现了 23.48％的新的最高水平，取得了超过 40％的改进。

Jan, 2022

一种基于注意力机制的在线语音识别模型

本文旨在通过采用延迟控制的双向结构和自适应单调分块注意力机制来消除全局软注意机制和双向编码器对实时语音识别的阻碍，并提出了两种方法来缓解两种方法结合时的性能下降，从而成功地获得了一个在线的 LAS 模型 LC-AMoChA。

Nov, 2018

注意力选项评论家

本文引入基于注意力机制的扩展方法到 option-critic 架构中，以实现带状态抽象的多样性 options 学习，有效解决了 option-critic 中出现的选项主导和频繁切换的问题，并在转移学习任务中展示出更高的效率，可解释性和重复利用性。

Jan, 2022

基于插槽注意力的目标中心学习

本文提出了一个名为 Slot Attention 的架构组件，它能够从低级感知特征中提取物体为中心的表示，并能够推广到未见组合。

Jun, 2020

跨模态翻译的级联注意残差学习生成对抗网络

本文提出一种新型级联关注引导残差生成对抗网络（CAR-GAN），旨在通过音频信号重建场景。该模型通过残差模块和级联关注引导网络解决不同类型数据间的差异，并在高级语义标签领域中保持一致性，实现了跨模态音视频生成的最新进展。

Jul, 2019

音视频零样本学习的时间和跨模态注意力

该研究提出了一种多模态和时间交叉注意力框架，可以利用音频和视觉信息的自然语义和时间对齐关系来实现音频 - 视觉广义零样本学习，并在多个基准测试中取得了最先进的性能。

Jul, 2022

MLCA-AVSR：基于多层交叉注意力融合的音视频语音识别

提出了一种多层交叉注意力融合的视听语音识别方法，通过在不同的音频 / 视觉编码器层级融合各种模态，实现了每种模态的表示学习，实验结果表明该方法在 MISP2022-AVSR 挑战数据集上达到了新的拼接最小排列字符错误率 (cpCER) 为 30.57% 的性能，并相对于前期系统获得了最多 3.17% 的相对改进，同时超过了第一名系统，获得了该数据集上的新的最先进 cpCER 为 29.13%。

Jan, 2024

维度情感识别中基于一致性的音视频融合交叉注意力

通过跨模态注意力来利用互补关系在多模态情感识别中引起了广泛关注。然而，模态之间也可能存在弱互补关系，可能会导致跨模态特征表示质量较差。为了解决这个问题，我们提出了一种基于不一致性感知的跨模态注意力方法（IACA），可以根据声音和视觉模态之间的强弱互补关系自适应地选择最相关的特征。具体而言，我们设计了一个两阶段的门控机制，可以自适应地选择适当的相关特征以处理弱互补关系。通过在具有挑战性的 Aff-Wild2 数据集上进行大量实验，展示了所提模型的鲁棒性。

May, 2024