利用视频级事件语义一致性实现音视频事件定位

Oct, 2022

利用视频级事件语义一致性实现音视频事件定位

Leveraging the Video-level Semantic Consistency of Event for Audio-visual Event Localization

Yuanyuan Jiang, Jianqin Yin, Yonghao Dang

TL;DR本文提出了一种新颖的视频级语义一致性引导网络，包括事件语义一致性建模模块和两个组件，交叉模态事件表示提取器和内部模态语义一致性增强器，同时增加负样本对过滤损失和平滑损失来进一步提高方法的有效性，以在 AVE 数据集上优于当前最先进的方法，在全面和弱监督设置下均表现出色。

Abstract

audio-visual event localization has attracted much attention in recent years. Most existing methods are often limited to independently encoding and classifying each video segment separated from the full video (which can be regarded as the segment-level representations of events). Howev

audio-visual event localization semantic consistency video-level event representation negative pair filter loss

发现论文，激发创造

无约束视频中的视听事件定位

本文介绍了一个新的无约束视频中的音频视觉事件定位问题，使用 AVE 数据集进行研究，提出了使用双模态残差网络结合音频引导视觉注意力机制处理音频视觉相关性的方案，并针对跨模态定位提出跨模态距离学习网络。实验结果表明，联合建模听觉和视觉模型优于独立建模，学习到的注意力可以捕捉声音对象的语义，音频视觉融合的时序对齐很重要，所提出的 DMRN 在融合音频视觉特征方面非常有效，两个模态之间的强相关性使跨模态定位成为可能。

Mar, 2018

分离声音和像素，再构建事件

本文提出了一个基于 Event Decomposition Recomposition Network（EDRNet）框架，解决监督和弱监督下的 Audio-Visual 事件（AVE）定位问题。在 AVE 数据集上实验表明，所提出的集体框架优于现有技术。

Dec, 2021

从语言角度重新审视基于弱监督的音视频分析

本文提出通过语言描述每个视频段的事件出现情况并计算语言提示与段落的相似度来识别事件并调整不可靠段落标签的方法，优于现有同类方法。

Jun, 2023

弱监督音视频事件定位的时间标签细化

本文提出使用基于弱监督学习思想的三个阶段的视频分段方法对同时具有可见和可听觉事件的音频 - 视觉事件进行定位和分类，方法通过用无重叠的帧替换训练数据片段中的帧并使用合成视频进行训练，辅助任务可以更可靠地预测本地化事件标签。

Jul, 2023

针对不同步视听事件的弱监督表征学习

本文提出了一种基于多模态学习的新型框架，可以从非同步的音频和视觉事件中学习，用于事件分类和定位。使用该方法可以取得弱标签音频事件视频大规模数据集的最先进结果。

Apr, 2018

通过联合注意力的递归融合实现音视频事件定位

本研究提出了一种新的多模态融合联合注意力机制，能够有效地从视听特征中学习联合表示，并通过递归式联合协同作用持续改进，从而在音视频事件定位任务中取得了明显的成果。

Aug, 2020

双模态 seq2seq 网络用于音频 - 视觉事件定位

本文介绍了一种名为 AVSDN 的深度神经网络，通过联合考虑每个时间段的音频和视觉特征作为输入，以序列到序列的方式学习全局和局部事件信息，在完全监督或弱监督设置下获得了良好的结果，并在音频视觉事件定位方面优于最近的深度学习方法。

Feb, 2019

未剪辑视频中稠密定位视听事件：一个大规模基准和基线模型

本文介绍了针对非修剪视频中具有多种类别音频 - 视觉事件的任务的挑战，提出了一个新的学习框架来解决此问题，并引入了第一个 Untrimmed Audio-Visual (UnAV-100) 数据集以验证其有效性。

Mar, 2023

用多模态查询在视频中定位事件

本研究介绍了一个用于视频事件定位的多模态查询基准（ICQ），该基准以多模态语义查询为输入，包括一个描述事件的参考图像和一个用于调整图像语义的修正文本。通过对 4 种风格的参考图像和 5 种类型的修正文本进行系统评估，我们提出了 3 种适应方法，并评估了 10 种尺度的现有模型。我们认为这个基准是探索视频事件定位中多模态查询的初步步骤。

Jun, 2024

UniAV：统一的音频视觉感知支持多任务视频定位

UniAV 是一种统一的视听感知网络，可以联合学习时间动作定位（TAL）、声音事件检测（SED）和视听事件定位（AVEL）任务，并通过使用预训练的文本编码器设计统一的语言感知分类器，实现对各种类型实例的灵活检测。UniAV 通过更少的参数比单一任务模型，在 ActivityNet 1.3、DESED 和 UnAV-100 基准测试中取得与最先进的任务特定方法相当或优秀的性能。

Apr, 2024