多分辨率音视频特征融合用于时序动作定位

Oct, 2023

多分辨率音视频特征融合用于时序动作定位

Multi-Resolution Audio-Visual Feature Fusion for Temporal Action Localization

Edward Fish, Jon Weinbren, Andrew Gilbert

TL;DR多分辨率音视频特征融合（MRAV-FF）是一种创新的方法，通过层级化门控交叉注意机制将不同时间分辨率的音视频数据合并，以提高时域动作定位任务的性能。

Abstract

temporal action localization (TAL) aims to identify actions' start, end, and class labels in untrimmed videos. While recent advancements using transformer networks and feature pyramid networks (FPN) have enhanced

temporal action localization multi-resolution audio-visual feature fusion transformer networks feature pyramid networks audio-visual data

发现论文，激发创造

听我说：用混合方法增强音频时序动作定位

本文提出了简单而有效的基于融合的方法，首次同时考虑音频和视频模态用于监督式的未剪辑视频动作定位 (TAL)，在多个融合方案、模态组合和 TAL 架构的消融试验中，我们通过大规模基准数据集（ActivityNet-1.3 和 THUMOS14）实验性地表明，我们的方案在国内外领先的仅视频 TAL 方法中始终能提高性能，特别地在指标度量上（[email protected]）达到新的最优水平。

Jun, 2021

MAiVAR-T：多模音频图片和视频动作识别器使用变形器

提出了一种新模型 MAiVAR-T（Multimodal Audio-Image to Video Action Recognition Transformer），旨在融合音频和图像模态以提高多模态人体动作识别（MHAR）的效果，并在基准动作识别数据集上展示了卓越的性能。

Aug, 2023

重新思考 Faster R-CNN 架构，用于时间段行为定位

介绍了基于 Faster R-CNN 的 TAL-Net 方法，通过多尺度架构、适当扩展感受野、多流特征融合等方式改进了视频中的时间动作定位，实现了在 THUMOS'14 目标检测基准和 ActivityNet 挑战赛中的平均最优表现。

Apr, 2018

UniAV：统一的音频视觉感知支持多任务视频定位

UniAV 是一种统一的视听感知网络，可以联合学习时间动作定位（TAL）、声音事件检测（SED）和视听事件定位（AVEL）任务，并通过使用预训练的文本编码器设计统一的语言感知分类器，实现对各种类型实例的灵活检测。UniAV 通过更少的参数比单一任务模型，在 ActivityNet 1.3、DESED 和 UnAV-100 基准测试中取得与最先进的任务特定方法相当或优秀的性能。

Apr, 2024

基于时空序列和关系学习的情感 - 激活估计的多模态融合方法

通过视频和音频的预处理，提取视觉和音频特征，并利用时间卷积网络和 Transformer 编码器结构提高模型的性能和泛化能力，融合预训练的音频和视频模型进行特征提取，实现了较好的 VA 评估性能（简化中文摘要）。

Mar, 2024

AUD-TGN：在野外音频视觉环境中借助时间卷积和 GPT-2 推进动作单位检测

利用音频数据和视觉数据协同作用对于理解人类情绪和行为非常重要，本论文提出了一种利用音视频多模态数据的新方法，通过模型化时间关系和利用预训练的 GPT-2 模型进行上下文感知的多模态信息融合，显著提高了面部动作单元检测的准确性，突显了对复杂场景理解的重要进展，为未来研究铺平了道路。

Mar, 2024

多模态大型语言模型的细粒度音频视觉联合表示

通过提出细粒度的音视频联合表示学习框架 (FAVOR)，同时感知音频和视觉输入流中的语音、音频事件以及图像或视频，利用因果关注模块增强音视频帧之间的因果关系捕捉，在音频、语音和图像任务上取得了有竞争力的单模态性能，并在需要细粒度信息或时间因果推理的视频问答任务上实现了超过 20% 的准确度改进，表现出了出色的视频理解和推理能力。

Oct, 2023

MA-AVT：用于参数高效音频 - 视觉变换器的模态对齐

该论文介绍了一种新的参数高效的视听变压器 MA-AVT，采用深度模态对齐来实现对应的多模态语义特征的对齐，通过联合单模态和多模态令牌学习，引入冻结的模态共享变压器，使模型能够学习到每种模态的独立表示，并关注它们之间的跨模态关系。此外，在编码阶段引入块对齐性学习以对齐粗粒、细粒的层次特征，并引入鲁棒的判别前景挖掘机制以抑制每种模态中的背景特征。通过在 benchmark AVE、VGGSound 和 CREMA-D 数据集上进行的大量实验，该方法在性能上取得了显著的改进。

Jun, 2024

针对少样本动作识别的任务特定对齐和多层 transformer

本文提出了一种名为 TSA-MLT 的端到端方法，在多层次特征上使用多层 Transformer 并使用任务特定的 TSA 进行处理，然后使用 L2 和 Optimal transport 距离度量进行融合，并以交叉熵损失进行训练以获得时间和语义方面的对齐，实验结果表明，在 HMDB51 和 UCF101 数据集上获得了最先进的结果，在 Kinetics 和 something-2-something V2 数据集基准测试上也有竞争力。

Jul, 2023

基于提议的时间动作定位与点级监督

提出了一种用于点级别监督时序动作定位的新方法，通过生成和评估具有灵活时长的动作提案来定位动作，利用聚类算法生成密集伪标签提供更强的监督，并利用精细的对比损失进一步提高伪标签的质量，实验证明该方法在多个基准数据集上达到了与最先进方法相媲美甚至更好的性能。

Oct, 2023