未剪辑视频中稠密定位视听事件：一个大规模基准和基线模型

CVPRMar, 2023

未剪辑视频中稠密定位视听事件：一个大规模基准和基线模型

Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale Benchmark and Baseline

Tiantian Geng, Teng Wang, Jinming Duan, Runmin Cong, Feng Zheng

TL;DR本文介绍了针对非修剪视频中具有多种类别音频 - 视觉事件的任务的挑战，提出了一个新的学习框架来解决此问题，并引入了第一个 Untrimmed Audio-Visual (UnAV-100) 数据集以验证其有效性。

Abstract

Existing audio-visual event localization (AVE) handles manually trimmed videos with only a single instance in each of them. However, this setting is unrealistic as natural videos often contain numerous audio-visual events with different categories. To better adapt to real-life applicat

audio-visual event localization dense-localizing untrimmed audio-visual dataset multi-scale cross-modal perception dependency modeling

发现论文，激发创造

无约束视频中的视听事件定位

本文介绍了一个新的无约束视频中的音频视觉事件定位问题，使用 AVE 数据集进行研究，提出了使用双模态残差网络结合音频引导视觉注意力机制处理音频视觉相关性的方案，并针对跨模态定位提出跨模态距离学习网络。实验结果表明，联合建模听觉和视觉模型优于独立建模，学习到的注意力可以捕捉声音对象的语义，音频视觉融合的时序对齐很重要，所提出的 DMRN 在融合音频视觉特征方面非常有效，两个模态之间的强相关性使跨模态定位成为可能。

Mar, 2018

UniAV：统一的音频视觉感知支持多任务视频定位

UniAV 是一种统一的视听感知网络，可以联合学习时间动作定位（TAL）、声音事件检测（SED）和视听事件定位（AVEL）任务，并通过使用预训练的文本编码器设计统一的语言感知分类器，实现对各种类型实例的灵活检测。UniAV 通过更少的参数比单一任务模型，在 ActivityNet 1.3、DESED 和 UnAV-100 基准测试中取得与最先进的任务特定方法相当或优秀的性能。

Apr, 2024

弱监督音视频事件定位的时间标签细化

本文提出使用基于弱监督学习思想的三个阶段的视频分段方法对同时具有可见和可听觉事件的音频 - 视觉事件进行定位和分类，方法通过用无重叠的帧替换训练数据片段中的帧并使用合成视频进行训练，辅助任务可以更可靠地预测本地化事件标签。

Jul, 2023

针对不同步视听事件的弱监督表征学习

本文提出了一种基于多模态学习的新型框架，可以从非同步的音频和视觉事件中学习，用于事件分类和定位。使用该方法可以取得弱标签音频事件视频大规模数据集的最先进结果。

Apr, 2018

双模态 seq2seq 网络用于音频 - 视觉事件定位

本文介绍了一种名为 AVSDN 的深度神经网络，通过联合考虑每个时间段的音频和视觉特征作为输入，以序列到序列的方式学习全局和局部事件信息，在完全监督或弱监督设置下获得了良好的结果，并在音频视觉事件定位方面优于最近的深度学习方法。

Feb, 2019

从语言角度重新审视基于弱监督的音视频分析

本文提出通过语言描述每个视频段的事件出现情况并计算语言提示与段落的相似度来识别事件并调整不可靠段落标签的方法，优于现有同类方法。

Jun, 2023

利用视频级事件语义一致性实现音视频事件定位

本文提出了一种新颖的视频级语义一致性引导网络，包括事件语义一致性建模模块和两个组件，交叉模态事件表示提取器和内部模态语义一致性增强器，同时增加负样本对过滤损失和平滑损失来进一步提高方法的有效性，以在 AVE 数据集上优于当前最先进的方法，在全面和弱监督设置下均表现出色。

Oct, 2022

音视时刻：一个大规模标注的音视行动数据集

我们提供了一个大规模的音频视觉动作事件数据集 (AVMIT)，它包含了被 11 名受训者独立评估的 57,177 个音频视觉视频的标注结果。这个数据集还附带了预先计算好的音频和视觉特征嵌入，并基于此进行了音频视觉事件识别性能的改进研究。通过在 6 个递归神经网络 (RNNs) 上进行训练和测试，我们发现专门使用音频视觉事件进行训练可以显著提高识别性能。我们有理由相信，这个新标注的 AVMIT 数据集将成为研究和比较实验的有价值资源，特别是在涉及到音频视觉对应关系的研究问题中。

Aug, 2023

密集视频字幕生成中的事件定位与描述

本文提出了一种新的密集视频字幕生成框架，该框架将时间上的事件提案的本地化和生成句子主体的合并，通过端到端的联合训练结构。这种模型在 ActivityNet Captions 数据集上的实验显示出了与现有技术相比的明显改进，创造了 12.96％的新的 METEOR 记录。

Apr, 2018

分离声音和像素，再构建事件

本文提出了一个基于 Event Decomposition Recomposition Network（EDRNet）框架，解决监督和弱监督下的 Audio-Visual 事件（AVE）定位问题。在 AVE 数据集上实验表明，所提出的集体框架优于现有技术。

Dec, 2021