自监督预测学习：一种无需负样本的视觉场景声源定位方法

CVPRMar, 2022

自监督预测学习：一种无需负样本的视觉场景声源定位方法

Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

Zengjie Song, Yuxi Wang, Junsong Fan, Tieniu Tan, Zhaoxiang Zhang

TL;DR本文提出了自监督预测学习 (SSPL) 方法，通过显式正样本挖掘以实现声音定位，将声音来源与视频帧的两个增强视图相结合，并引入了预测编码模块以帮助 SSPL 逐步聚焦目标对象和有效降低正向对难度。实验结果表明，SSPL 在两个标准的声音定位基准测试中优于现有最佳方法，在 SoundNet-Flickr 上将 cIoU 和 AUC 分别提高了 8.6％和 3.4％。

Abstract

sound source localization in visual scenes aims to localize objects emitting the sound in a given image. Recent works showing impressive localization performance typically rely on the contrastive learning framewo

sound source localization visual scenes self-supervised predictive learning positive mining audio-visual feature alignment

发现论文，激发创造

弱监督音视频来源定位的深入探究

本文提出了一种新的视听源定位方法，通过扩展音频图片嵌入的训练数据以及采用新的评估方法来解决定位不准确和过拟合的问题。

Aug, 2022

通过概率空间建模的自监督神经音频视觉声源定位

该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统，旨在解决自主机器人理解周围环境的问题。

Jul, 2020

简单实现的视觉声音定位

本文提出了一种名为 EZ-VSL 的简单而有效的无监督音频 - 视觉源定位方法，旨在识别视频中的可见声源，其采用对齐音频和视觉空间的方法来实现，在 Flickr SoundNet 和 VGG-Sound Source 数据集上均取得了良好的表现，特别是在 CIoU 方面从 76.80% 提高到了 83.94%。

Mar, 2022

基于语义相似样本更好地学习声音定位

本文的目标是在视觉场景中定位声源。我们的研究发现，之前的视听学习将语义匹配的音视频信息错误地分为负例，我们的方法直接将这些 “硬正例” 与响应图纳入对比学习目标，证明在 VGG-SS 和 SoundNet-Flickr 测试集上表现优异。

Feb, 2022

迭代对比学习的无监督声音定位

本文提出了一种无需数据注释的迭代对比学习框架，用于声音定位任务，在图像中预测的定位结果和从音频信号中推断的语义关系被用作伪标签，并通过迭代策略逐渐促进声源的定位。实验结果表明，该框架在声音定位任务上表现良好，优于现有的无监督和弱监督方法。

Apr, 2021

SemiPL: 面向事件声源定位的半监督方法

采用已有模型对更复杂的数据集进行应用，探索模型参数的影响，并提出了一种半监督改进方法 SemiPL。实验结果表明，参数调整对现有模型产生积极影响，特别是在混乱环境下，SSPL 相较于提供的结果，标准化 IoU 改进了 12.2％，AUC 改进了 0.56％。

Apr, 2024

通过假阴性感知对比学习学习音频 - 视觉源定位

本研究提出了一种新的自监督音视频源定位学习策略，名为 False Negative Aware Contrastive（FNAC），旨在缓解真实世界训练中的错误负样本问题。该方法基于对单模态相似性的利用，可以识别类似样本并构建相应的邻接矩阵来引导对比学习。进一步地，该方法通过显式地利用音源的视觉特征，以区分真实的声源区域，增强了真负样本的作用，从而取得了 Flickr-SoundNet、VGG-Sound 和 AVSBench 中的最先进表现。

Mar, 2023

学习在视觉场景中定位声源

本文提出一种新颖的无监督学习算法，可以通过观察声音和视觉场景对来仅仅聚焦声音源，在仅仅几个监督的情况下可以有效地纠正错误的结论并定位声音源.

Mar, 2018

学习在视觉场景中定位声源：分析与应用

本项研究提出一种基于双流网络的无监督算法，用于在视觉场景中定位声源，并针对该算法所存在的误差问题通过半监督学习进行修正，从而增强了算法的可靠性和泛化性。

Nov, 2019

基于自监督视听匹配的区分性声音目标定位

本研究提出了一种两阶段学习框架，利用单一场景下的候选声音定位结果来学习鲁棒的对象表示，并通过引用预学习的对象知识生成了类感知对象本地化映射，在各种混音声音场景下选择声音和视觉对象类别分布的匹配，其中视听一致性被视为自我监督信号。实验结果表明，我们的模型在过滤无声对象和指出不同类别声音对象位置方面优于其他方法。

Oct, 2020