通过分段伪标签提升弱监督音视频解析

Jun, 2024

通过分段伪标签提升弱监督音视频解析

Advancing Weakly-Supervised Audio-Visual Video Parsing via Segment-wise Pseudo Labeling

Jinxing Zhou, Dan Guo, Yiran Zhong, Meng Wang

TL;DR通过利用先前从开放世界学到的知识，我们提出了一种新的伪标签生成策略，可以将标签明确分配给每个视频片段，进一步使用新的损失函数来利用这些伪标签，并采用标签去噪策略来提升视觉伪标签。我们在 LLP 数据集上进行了广泛实验，证明了每个提议设计的有效性，并在所有类型的事件解析上取得了最先进的视频解析性能，且在相关的弱监督音频 - 视觉事件定位任务上验证了我们方法的优势和泛化性。

Abstract

The audio-visual video parsing task aims to identify and temporally localize the events that occur in either or both the audio and visual streams of audible videos. It often performs in a weakly-supervised manner

audio-visual video parsing weakly-supervised pseudo label generation video segment event localization

发现论文，激发创造

从语言角度重新审视基于弱监督的音视频分析

本文提出通过语言描述每个视频段的事件出现情况并计算语言提示与段落的相似度来识别事件并调整不可靠段落标签的方法，优于现有同类方法。

Jun, 2023

统一的多感知知觉：弱监督的音频 - 视觉视频解析

本文介绍了音频 - 视觉视频解析的问题，并提出了一个新的混合注意力网络方法和一种自适应 MMIL 池化方法来解决多模态多实例学习问题，以及利用标签平滑技术来减轻模态偏置和嘈杂标签问题。实验结果表明，即使只有视频级弱标签，也可以实现具有挑战性的音频 - 视觉视频解析。

Jul, 2020

跨模态学习用于视听视频解析

本文介绍了一种新的音频 - 视觉视频解析（AVVP）任务的方法，该方法将音频和视觉模态中的事件分开，在时间上同时检测这些事件的开始和结束，并利用对抗性训练、全局上下文知觉关注和自监督预训练来获得跨模态的音频 - 视频表示，实验结果表明本文的方法在 AVVP 任务上比现有的 HAN 模型更好。

Apr, 2021

弱监督音视频解析联合模态标签去噪

本文旨在解决弱监督下视听视频解析任务中的异态噪声标签问题，并提出了一种标签清理的训练策略。通过将每个模态中每个实例的损失进行排序并根据损失的关系选择噪声样本，我们的方法在视觉指标方面取得了明显进展，从而表明我们的方法是有效的。

Apr, 2022

针对不同步视听事件的弱监督表征学习

本文提出了一种基于多模态学习的新型框架，可以从非同步的音频和视觉事件中学习，用于事件分类和定位。使用该方法可以取得弱标签音频事件视频大规模数据集的最先进结果。

Apr, 2018

弱监督音视频事件定位的时间标签细化

本文提出使用基于弱监督学习思想的三个阶段的视频分段方法对同时具有可见和可听觉事件的音频 - 视觉事件进行定位和分类，方法通过用无重叠的帧替换训练数据片段中的帧并使用合成视频进行训练，辅助任务可以更可靠地预测本地化事件标签。

Jul, 2023

通用教师遇见弱监督音视频事件解析器

通过较大比例的对比预训练模型作为模态教师的视听标签阐述 (VAOLOR)，我们在视频的未对齐设置中识别音频和视觉事件，并取得最新的最新成果，在所有 LLP 指标上实现了显着的优势 (+5.4 F-score for Type @ AV)。

May, 2023

跨模态伪标签半监督音频 - 视觉源定位

我们的研究聚焦于半监督 AVSL 中的伪标签方法，提出了一种名为 Cross Pseudo-Labeling（XPL）的新方法，通过交互学习和交叉精炼机制，避免偏见积累，并结合软伪标签和课程数据选择模块以实现稳定训练，实验证明 XPL 相较于现有方法在性能上显著优越，并在保持稳定性的同时有效减轻了确认偏见。

Mar, 2024

利用多模态自监督从零开始标记未标记的视频

本文提出了一种基于音频和视觉的聚类方法，可以实现对视频数据集的无监督标记。经过广泛的分析，结果聚类与人工标签有很高的语义重叠性。同时，该方法也为 Kinetics，Kinetics-Sound，VGG-Sound 和 AVE 等常见视频数据集的无监督标记带来了首批基准结果。

Jun, 2020

CoLeaF: 一个对比 - 协同学习框架，用于弱监督音频 - 视觉视频解析

通过使用 CoLeaF，一种新的学习框架，提高了弱监督音频 - 视觉视频解析的性能，通过在嵌入空间中优化跨模态上下文的集成，对于可听 - 可见事件，网络能够明确学习将跨模态信息结合起来，而对于不一致的事件进行过滤。

May, 2024