听我说：用混合方法增强音频时序动作定位

Jun, 2021

听我说：用混合方法增强音频时序动作定位

Hear Me Out: Fusional Approaches for Audio Augmented Temporal Action Localization

Anurag Bagchi, Jazib Mahmood, Dolton Fernandes, Ravi Kiran Sarvadevabhatla

TL;DR本文提出了简单而有效的基于融合的方法，首次同时考虑音频和视频模态用于监督式的未剪辑视频动作定位 (TAL)，在多个融合方案、模态组合和 TAL 架构的消融试验中，我们通过大规模基准数据集（ActivityNet-1.3 和 THUMOS14）实验性地表明，我们的方案在国内外领先的仅视频 TAL 方法中始终能提高性能，特别地在指标度量上（[email protected]）达到新的最优水平。

Abstract

state of the art architectures for untrimmed video Temporal Action Localization (TAL) have only considered RGB and Flow modalities, leaving the information-rich audio modality totally unexploited. →

untrimmed video temporal action localization audio fusion state of the art large-scale benchmark datasets

发现论文，激发创造

多分辨率音视频特征融合用于时序动作定位

多分辨率音视频特征融合（MRAV-FF）是一种创新的方法，通过层级化门控交叉注意机制将不同时间分辨率的音视频数据合并，以提高时域动作定位任务的性能。

Oct, 2023

EPIC-Fusion: 基于视听时空绑定的第一人称动作识别

提出了一种多模态融合架构，采用中层融合以及稀疏地对融合表示进行时间采样，将 RGB、Flow 和 Audio 三种模态进行融合，重点研究了多模态时间绑定，逐步改进，取得最先进的结果。

Aug, 2019

基于时空序列和关系学习的情感 - 激活估计的多模态融合方法

通过视频和音频的预处理，提取视觉和音频特征，并利用时间卷积网络和 Transformer 编码器结构提高模型的性能和泛化能力，融合预训练的音频和视频模型进行特征提取，实现了较好的 VA 评估性能（简化中文摘要）。

Mar, 2024

基于自然对抗性互相正则化的自下而上时域动作定位

本文针对时间行为定位（TAL）在不带剪辑的视频中查找特定动作片段方面，深入研究了现有方法在模拟这些阶段时，忽略了它们之间的潜在时间约束。作者提出了 IntraC 和 InterC 两个正则化项，使整个框架可以在端对端优化过程中适应这些潜在约束条件，并在 THUMOS14 和 ActivityNet1.3 两个流行的 TAL 数据集上进行了实验。结果表明，本方法在定量和定性上都优于基线，并且所提出的正则化方法还可以推广到其他 TAL 方法（例如，TSA-Net 和 PGCN）。

Feb, 2020

大规模视频分类中多模态融合的良好实践

通过多模数据融合与双线性池化结合，实现音视频表达融合，在视频分类等大规模多媒体处理上显著优于简单融合方法，并在 Youtube-8M v2 数据集上进行了验证。

Sep, 2018

UniAV：统一的音频视觉感知支持多任务视频定位

UniAV 是一种统一的视听感知网络，可以联合学习时间动作定位（TAL）、声音事件检测（SED）和视听事件定位（AVEL）任务，并通过使用预训练的文本编码器设计统一的语言感知分类器，实现对各种类型实例的灵活检测。UniAV 通过更少的参数比单一任务模型，在 ActivityNet 1.3、DESED 和 UnAV-100 基准测试中取得与最先进的任务特定方法相当或优秀的性能。

Apr, 2024

AUD-TGN：在野外音频视觉环境中借助时间卷积和 GPT-2 推进动作单位检测

利用音频数据和视觉数据协同作用对于理解人类情绪和行为非常重要，本论文提出了一种利用音视频多模态数据的新方法，通过模型化时间关系和利用预训练的 GPT-2 模型进行上下文感知的多模态信息融合，显著提高了面部动作单元检测的准确性，突显了对复杂场景理解的重要进展，为未来研究铺平了道路。

Mar, 2024

具有查询自适应变形器的小样本时间动作定位

本研究提出了一种新的少样本学习 (temporal action localization) 设置，使用未剪裁的视频来动态适应新类别和每个视频，同时引入了一个查询自适应变压器 (query adaptive Transformer) 来实现这一点，从而在两个行动定位基准测试中显著地优于所有现有方法。

Oct, 2021

基于时间提案演化的精准时间动作定位

提出了一个基于三阶段框架的行动定位方法，包括一个 Actionness 神经网络来生成初始提议，一个 Refinement 网络来进行边界调整，以及一个 Localization 网络进行精细定位回归。在 THUMOS14 基准测试中表现优异，尤其是在高 IoU 阈值下的精确定位方面表现出色，mAP@IoU=0.5 达到 34.2%。

Apr, 2018

基于注意力机制的视听融合在强鲁棒性自动语音识别中的应用

本文提出了一种音频视觉融合策略，该策略不仅可以超越简单的特征连接，而且可以自动地对齐两种方式，具有提高语音识别准确性的增强表示，特别适合干扰噪声环境中的识别任务，并且可以推广到许多涉及相关模态的多模态任务中。

Sep, 2018