弱监督音视频事件定位的时间标签细化

Jul, 2023

弱监督音视频事件定位的时间标签细化

Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event Localization

Kalyan Ramakrishnan

TL;DR本文提出使用基于弱监督学习思想的三个阶段的视频分段方法对同时具有可见和可听觉事件的音频 - 视觉事件进行定位和分类，方法通过用无重叠的帧替换训练数据片段中的帧并使用合成视频进行训练，辅助任务可以更可靠地预测本地化事件标签。

Abstract

audio-visual event localization (AVEL) is the task of temporally localizing and classifying \emph{audio-visual events}, i.e., events simultaneously visible and audible in a video. In this paper, we solve AVEL in a weakly-supervised setting, where only video-level event labels (their pr

audio-visual event localization weakly-supervised learning temporal localization event classification synthetic video

发现论文，激发创造

无约束视频中的视听事件定位

本文介绍了一个新的无约束视频中的音频视觉事件定位问题，使用 AVE 数据集进行研究，提出了使用双模态残差网络结合音频引导视觉注意力机制处理音频视觉相关性的方案，并针对跨模态定位提出跨模态距离学习网络。实验结果表明，联合建模听觉和视觉模型优于独立建模，学习到的注意力可以捕捉声音对象的语义，音频视觉融合的时序对齐很重要，所提出的 DMRN 在融合音频视觉特征方面非常有效，两个模态之间的强相关性使跨模态定位成为可能。

Mar, 2018

从语言角度重新审视基于弱监督的音视频分析

本文提出通过语言描述每个视频段的事件出现情况并计算语言提示与段落的相似度来识别事件并调整不可靠段落标签的方法，优于现有同类方法。

Jun, 2023

针对不同步视听事件的弱监督表征学习

本文提出了一种基于多模态学习的新型框架，可以从非同步的音频和视觉事件中学习，用于事件分类和定位。使用该方法可以取得弱标签音频事件视频大规模数据集的最先进结果。

Apr, 2018

UniAV：统一的音频视觉感知支持多任务视频定位

UniAV 是一种统一的视听感知网络，可以联合学习时间动作定位（TAL）、声音事件检测（SED）和视听事件定位（AVEL）任务，并通过使用预训练的文本编码器设计统一的语言感知分类器，实现对各种类型实例的灵活检测。UniAV 通过更少的参数比单一任务模型，在 ActivityNet 1.3、DESED 和 UnAV-100 基准测试中取得与最先进的任务特定方法相当或优秀的性能。

Apr, 2024

未剪辑视频中稠密定位视听事件：一个大规模基准和基线模型

本文介绍了针对非修剪视频中具有多种类别音频 - 视觉事件的任务的挑战，提出了一个新的学习框架来解决此问题，并引入了第一个 Untrimmed Audio-Visual (UnAV-100) 数据集以验证其有效性。

Mar, 2023

通过分段伪标签提升弱监督音视频解析

通过利用先前从开放世界学到的知识，我们提出了一种新的伪标签生成策略，可以将标签明确分配给每个视频片段，进一步使用新的损失函数来利用这些伪标签，并采用标签去噪策略来提升视觉伪标签。我们在 LLP 数据集上进行了广泛实验，证明了每个提议设计的有效性，并在所有类型的事件解析上取得了最先进的视频解析性能，且在相关的弱监督音频 - 视觉事件定位任务上验证了我们方法的优势和泛化性。

Jun, 2024

利用视频级事件语义一致性实现音视频事件定位

本文提出了一种新颖的视频级语义一致性引导网络，包括事件语义一致性建模模块和两个组件，交叉模态事件表示提取器和内部模态语义一致性增强器，同时增加负样本对过滤损失和平滑损失来进一步提高方法的有效性，以在 AVE 数据集上优于当前最先进的方法，在全面和弱监督设置下均表现出色。

Oct, 2022

跨模态伪标签半监督音频 - 视觉源定位

我们的研究聚焦于半监督 AVSL 中的伪标签方法，提出了一种名为 Cross Pseudo-Labeling（XPL）的新方法，通过交互学习和交叉精炼机制，避免偏见积累，并结合软伪标签和课程数据选择模块以实现稳定训练，实验证明 XPL 相较于现有方法在性能上显著优越，并在保持稳定性的同时有效减轻了确认偏见。

Mar, 2024

双模态 seq2seq 网络用于音频 - 视觉事件定位

本文介绍了一种名为 AVSDN 的深度神经网络，通过联合考虑每个时间段的音频和视觉特征作为输入，以序列到序列的方式学习全局和局部事件信息，在完全监督或弱监督设置下获得了良好的结果，并在音频视觉事件定位方面优于最近的深度学习方法。

Feb, 2019

弱监督可扩展音频内容分析

本文介绍了一种利用异构弱标注数据进行音频事件检测的弱监督学习框架，同时提出了一种可扩展的多实例学习算法，并证明了其在音频事件检测中具有竞争力。

Jun, 2016