Jun, 2024
通过分段伪标签提升弱监督音视频解析
Advancing Weakly-Supervised Audio-Visual Video Parsing via Segment-wise Pseudo Labeling
Jinxing Zhou, Dan Guo, Yiran Zhong, Meng Wang
TL;DR通过利用先前从开放世界学到的知识,我们提出了一种新的伪标签生成策略,可以将标签明确分配给每个视频片段,进一步使用新的损失函数来利用这些伪标签,并采用标签去噪策略来提升视觉伪标签。我们在 LLP 数据集上进行了广泛实验,证明了每个提议设计的有效性,并在所有类型的事件解析上取得了最先进的视频解析性能,且在相关的弱监督音频 - 视觉事件定位任务上验证了我们方法的优势和泛化性。