从语言角度重新审视基于弱监督的音视频分析

Jun, 2023

从语言角度重新审视基于弱监督的音视频分析

Revisit Weakly-Supervised Audio-Visual Video Parsing from the Language Perspective

Yingying Fan, Yu Wu, Yutian Lin, Bo Du

TL;DR本文提出通过语言描述每个视频段的事件出现情况并计算语言提示与段落的相似度来识别事件并调整不可靠段落标签的方法，优于现有同类方法。

Abstract

We focus on the weakly-supervised audio-visual video parsing task (AVVP), which aims to identify and locate all the events in audio/visual modalities. Previous works only concentrate on video-level overall label denoising across modalities, but overlook the →

audio-visual video parsing event recognition segment-level label noise language prompts dynamic re-weighting

发现论文，激发创造

通过分段伪标签提升弱监督音视频解析

通过利用先前从开放世界学到的知识，我们提出了一种新的伪标签生成策略，可以将标签明确分配给每个视频片段，进一步使用新的损失函数来利用这些伪标签，并采用标签去噪策略来提升视觉伪标签。我们在 LLP 数据集上进行了广泛实验，证明了每个提议设计的有效性，并在所有类型的事件解析上取得了最先进的视频解析性能，且在相关的弱监督音频 - 视觉事件定位任务上验证了我们方法的优势和泛化性。

Jun, 2024

统一的多感知知觉：弱监督的音频 - 视觉视频解析

本文介绍了音频 - 视觉视频解析的问题，并提出了一个新的混合注意力网络方法和一种自适应 MMIL 池化方法来解决多模态多实例学习问题，以及利用标签平滑技术来减轻模态偏置和嘈杂标签问题。实验结果表明，即使只有视频级弱标签，也可以实现具有挑战性的音频 - 视觉视频解析。

Jul, 2020

跨模态学习用于视听视频解析

本文介绍了一种新的音频 - 视觉视频解析（AVVP）任务的方法，该方法将音频和视觉模态中的事件分开，在时间上同时检测这些事件的开始和结束，并利用对抗性训练、全局上下文知觉关注和自监督预训练来获得跨模态的音频 - 视频表示，实验结果表明本文的方法在 AVVP 任务上比现有的 HAN 模型更好。

Apr, 2021

通用教师遇见弱监督音视频事件解析器

通过较大比例的对比预训练模型作为模态教师的视听标签阐述 (VAOLOR)，我们在视频的未对齐设置中识别音频和视觉事件，并取得最新的最新成果，在所有 LLP 指标上实现了显着的优势 (+5.4 F-score for Type @ AV)。

May, 2023

CoLeaF: 一个对比 - 协同学习框架，用于弱监督音频 - 视觉视频解析

通过使用 CoLeaF，一种新的学习框架，提高了弱监督音频 - 视觉视频解析的性能，通过在嵌入空间中优化跨模态上下文的集成，对于可听 - 可见事件，网络能够明确学习将跨模态信息结合起来，而对于不一致的事件进行过滤。

May, 2024

针对不同步视听事件的弱监督表征学习

本文提出了一种基于多模态学习的新型框架，可以从非同步的音频和视觉事件中学习，用于事件分类和定位。使用该方法可以取得弱标签音频事件视频大规模数据集的最先进结果。

Apr, 2018

无约束视频中的视听事件定位

本文介绍了一个新的无约束视频中的音频视觉事件定位问题，使用 AVE 数据集进行研究，提出了使用双模态残差网络结合音频引导视觉注意力机制处理音频视觉相关性的方案，并针对跨模态定位提出跨模态距离学习网络。实验结果表明，联合建模听觉和视觉模型优于独立建模，学习到的注意力可以捕捉声音对象的语义，音频视觉融合的时序对齐很重要，所提出的 DMRN 在融合音频视觉特征方面非常有效，两个模态之间的强相关性使跨模态定位成为可能。

Mar, 2018

弱监督音视频事件定位的时间标签细化

本文提出使用基于弱监督学习思想的三个阶段的视频分段方法对同时具有可见和可听觉事件的音频 - 视觉事件进行定位和分类，方法通过用无重叠的帧替换训练数据片段中的帧并使用合成视频进行训练，辅助任务可以更可靠地预测本地化事件标签。

Jul, 2023

弱监督音视频解析联合模态标签去噪

本文旨在解决弱监督下视听视频解析任务中的异态噪声标签问题，并提出了一种标签清理的训练策略。通过将每个模态中每个实例的损失进行排序并根据损失的关系选择噪声样本，我们的方法在视觉指标方面取得了明显进展，从而表明我们的方法是有效的。

Apr, 2022

利用视频级事件语义一致性实现音视频事件定位

本文提出了一种新颖的视频级语义一致性引导网络，包括事件语义一致性建模模块和两个组件，交叉模态事件表示提取器和内部模态语义一致性增强器，同时增加负样本对过滤损失和平滑损失来进一步提高方法的有效性，以在 AVE 数据集上优于当前最先进的方法，在全面和弱监督设置下均表现出色。

Oct, 2022