基于语义相似样本更好地学习声音定位

Feb, 2022

基于语义相似样本更好地学习声音定位

Learning Sound Localization Better From Semantically Similar Samples

Arda Senocak, Hyeonggon Ryu, Junsik Kim, In So Kweon

TL;DR本文的目标是在视觉场景中定位声源。我们的研究发现，之前的视听学习将语义匹配的音视频信息错误地分为负例，我们的方法直接将这些 “硬正例” 与响应图纳入对比学习目标，证明在 VGG-SS 和 SoundNet-Flickr 测试集上表现优异。

Abstract

The objective of this work is to localize the sound sources in visual scenes. Existing audio-visual works employ →

localize sound sources audio-visual contrastive learning response maps

发现论文，激发创造

艰难的方式本地化视觉音效

本文主要讲述了如何通过训练神经网络来定位视频中可见的声源，采用对图像难样本强化学习的方法以提升定位精度。同时，作者还介绍了一个新的数据集 VGG-Sound Source benchmark，并展示了该算法在其上的最先进性能。

Apr, 2021

迭代对比学习的无监督声音定位

本文提出了一种无需数据注释的迭代对比学习框架，用于声音定位任务，在图像中预测的定位结果和从音频信号中推断的语义关系被用作伪标签，并通过迭代策略逐渐促进声源的定位。实验结果表明，该框架在声音定位任务上表现良好，优于现有的无监督和弱监督方法。

Apr, 2021

弱监督音视频来源定位的深入探究

本文提出了一种新的视听源定位方法，通过扩展音频图片嵌入的训练数据以及采用新的评估方法来解决定位不准确和过拟合的问题。

Aug, 2022

通过假阴性感知对比学习学习音频 - 视觉源定位

本研究提出了一种新的自监督音视频源定位学习策略，名为 False Negative Aware Contrastive（FNAC），旨在缓解真实世界训练中的错误负样本问题。该方法基于对单模态相似性的利用，可以识别类似样本并构建相应的邻接矩阵来引导对比学习。进一步地，该方法通过显式地利用音源的视觉特征，以区分真实的声源区域，增强了真负样本的作用，从而取得了 Flickr-SoundNet、VGG-Sound 和 AVSBench 中的最先进表现。

Mar, 2023

简单实现的视觉声音定位

本文提出了一种名为 EZ-VSL 的简单而有效的无监督音频 - 视觉源定位方法，旨在识别视频中的可见声源，其采用对齐音频和视觉空间的方法来实现，在 Flickr SoundNet 和 VGG-Sound Source 数据集上均取得了良好的表现，特别是在 CIoU 方面从 76.80% 提高到了 83.94%。

Mar, 2022

鲁棒音频视觉实例判别

本文介绍了一种自监督学习方法，以学习音频和视频表征，并通过行动识别任务的实验验证了其解决音频 - 视觉实例区别问题和提高迁移学习性能的贡献。

Mar, 2021

自监督预测学习：一种无需负样本的视觉场景声源定位方法

本文提出了自监督预测学习 (SSPL) 方法，通过显式正样本挖掘以实现声音定位，将声音来源与视频帧的两个增强视图相结合，并引入了预测编码模块以帮助 SSPL 逐步聚焦目标对象和有效降低正向对难度。实验结果表明，SSPL 在两个标准的声音定位基准测试中优于现有最佳方法，在 SoundNet-Flickr 上将 cIoU 和 AUC 分别提高了 8.6％和 3.4％。

Mar, 2022

学习在视觉场景中定位声源：分析与应用

本项研究提出一种基于双流网络的无监督算法，用于在视觉场景中定位声源，并针对该算法所存在的误差问题通过半监督学习进行修正，从而增强了算法的可靠性和泛化性。

Nov, 2019

从粗定位到精确定位的多声源定位

我们开发了一个基于视听学习框架的两阶段音频可视定位方法来解决在自然生动的视频中需要定位多个声音源的问题，该方法能够有效地将声音与特定的视觉来源进行对齐。

Jul, 2020

声源定位是关于跨模态对齐的全部内容

我们提出了一个跨模态对齐任务作为声源定位的联合任务，以更好地学习音频和视觉模态之间的交互，并在声源定位和跨模态检索方面超越了现有的方法，从而实现了较高的定位性能和强大的跨模态语义理解。

Sep, 2023