中心舞台：基于中心性的音频 - 视觉时域动作检测

Nov, 2023

中心舞台：基于中心性的音频 - 视觉时域动作检测

Centre Stage: Centricity-based Audio-Visual Temporal Action Detection

Hanyuan Wang, Majid Mirmehdi, Dima Damen, Toby Perrett

TL;DR利用多尺度交叉注意力融合视觉和音频模态的一步式动作检测方法，结合基于中心程度评分的网络头部，实现了在 EPIC-Kitchens-100 动作检测基准上最新的最佳性能。

Abstract

Previous one-stage action detection approaches have modelled temporal dependencies using only the visual modality. In this paper, we explore different strategies to incorporate the audio modality, using multi-scale cross-attention to fuse the two modalities. We also demonstrate the cor

one-stage action detection audio-visual fusion centricity scores state-of-the-art performance epic-kitchens-100

发现论文，激发创造

由音频叙述引导的弱监督行为检测

提出了一种基于多模态学习和叙述监督的视频检测模型，可以从嘈杂的音频叙述中学习动作检测，从而降低标注的费用。

May, 2022

从时间维度出发：多模态自我中心动作识别

利用时间上下文提高了自我中心视频识别能力的基于转换器的多模态模型。

Nov, 2021

EPIC-Fusion: 基于视听时空绑定的第一人称动作识别

提出了一种多模态融合架构，采用中层融合以及稀疏地对融合表示进行时间采样，将 RGB、Flow 和 Audio 三种模态进行融合，重点研究了多模态时间绑定，逐步改进，取得最先进的结果。

Aug, 2019

音视频领导者 - 追随者注意力融合的连续情感识别

本文提出一种视听空间时域深度神经网络，其中包括预训练的二维 - CNN 和几个平行 TCNs，同时利用视听信息，通过跨验证来充分利用数据和缓解过度拟合，并使用交界面关注机制来强调视觉模态和利用嘈杂的听觉模态。在测试集中，本文的方法在 valence 和 arousal 方面通过了 CCC 测试，相较于其他方法有明显的准确度提升。

Jul, 2021

CAST: 视频动作识别中的时空交叉注意力

我们提出了一种新的双流架构，称为 Cross-Attention in Space and Time (CAST)，它使用 RGB 输入实现了对视频的平衡的时空理解。我们的提出的瓶颈交叉注意机制使得空间和时间专家模型能够交换信息并进行协同预测，从而提高性能。我们通过对 EPIC-KITCHENS-100、Something-Something-V2 和 Kinetics-400 等公共基准数据集进行了大量实验证明了所提方法的优越性能。与现有方法相比，在不同数据集特征下，我们的方法始终表现出较好的性能。

Nov, 2023

听我说：用混合方法增强音频时序动作定位

本文提出了简单而有效的基于融合的方法，首次同时考虑音频和视频模态用于监督式的未剪辑视频动作定位 (TAL)，在多个融合方案、模态组合和 TAL 架构的消融试验中，我们通过大规模基准数据集（ActivityNet-1.3 和 THUMOS14）实验性地表明，我们的方案在国内外领先的仅视频 TAL 方法中始终能提高性能，特别地在指标度量上（[email protected]）达到新的最优水平。

Jun, 2021

一种基于语义和运动感知的时空转换网络实现动作检测

本文介绍了一种新颖的时空变换网络，其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联，使用运动感知网络编码视频帧中的动作位置，并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系，该方法在四个时空动作数据集上优于最先进的解决方案：AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。

May, 2024

AUD-TGN：在野外音频视觉环境中借助时间卷积和 GPT-2 推进动作单位检测

利用音频数据和视觉数据协同作用对于理解人类情绪和行为非常重要，本论文提出了一种利用音视频多模态数据的新方法，通过模型化时间关系和利用预训练的 GPT-2 模型进行上下文感知的多模态信息融合，显著提高了面部动作单元检测的准确性，突显了对复杂场景理解的重要进展，为未来研究铺平了道路。

Mar, 2024

将时间和空间注意力融合在 VATEX 视频字幕挑战 2019 中

该论文提出了一种用于视频字幕生成的模型，该模型在时间和空间上均考虑了注意力机制，并通过后期融合策略将这两种机制结合起来，从而显著提高了生成字幕的性能，达到了 73.4 的 CIDEr 得分，并在 VATEX 视频字幕生成挑战赛上获得第二名。

Oct, 2019

听取未来：音视频自我中心注视预测

本文介绍了一种利用两种视觉和听觉模态进行 egocentric 注视预测的模型，为此我们提出了一种对比时空可分的融合方法，并采用对比损失进行表示学习。我们使用 Ego4D 和 Aria 等数据集进行了广泛的实验验证，并在先前的最新方法上进行了改进。此外，我们提供了可视化来显示注视预测结果并提供了有关音频 - 视觉表示学习的其他见解。

May, 2023