学习在视觉场景中定位声源：分析与应用

Nov, 2019

学习在视觉场景中定位声源：分析与应用

Learning to Localize Sound Sources in Visual Scenes: Analysis and Applications

Arda Senocak, Tae-Hyun Oh, Junsik Kim, Ming-Hsuan Yang, In So Kweon

TL;DR本项研究提出一种基于双流网络的无监督算法，用于在视觉场景中定位声源，并针对该算法所存在的误差问题通过半监督学习进行修正，从而增强了算法的可靠性和泛化性。

Abstract

Visual events are usually accompanied by sounds in our daily lives. However, can the machines learn to correlate the visual scene and sound, as well as localize the sound source only by observing them like humans? To investigate its empirical learnability, in this work we first present a novel unsupervised algorithm to address the problem of localizing sound

sound localization unsupervised learning two-stream network supervised learning semi-supervised learning

发现论文，激发创造

学习在视觉场景中定位声源

本文提出一种新颖的无监督学习算法，可以通过观察声音和视觉场景对来仅仅聚焦声音源，在仅仅几个监督的情况下可以有效地纠正错误的结论并定位声音源.

Mar, 2018

弱监督音视频来源定位的深入探究

本文提出了一种新的视听源定位方法，通过扩展音频图片嵌入的训练数据以及采用新的评估方法来解决定位不准确和过拟合的问题。

Aug, 2022

混合声音源的本地化

我们提出了一种同时定位视觉场景中多个声源的方法，使用 Jabri 等人的对比随机漫步所启发的模型，并结合了视听相似性度量，能够较好地解决声音混合的分离与声音和视觉信号的联合问题，实验结果表明该模型在定位多个声源方面优于其他自监督方法。

Nov, 2022

简单实现的视觉声音定位

本文提出了一种名为 EZ-VSL 的简单而有效的无监督音频 - 视觉源定位方法，旨在识别视频中的可见声源，其采用对齐音频和视觉空间的方法来实现，在 Flickr SoundNet 和 VGG-Sound Source 数据集上均取得了良好的表现，特别是在 CIoU 方面从 76.80% 提高到了 83.94%。

Mar, 2022

通过概率空间建模的自监督神经音频视觉声源定位

该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统，旨在解决自主机器人理解周围环境的问题。

Jul, 2020

艰难的方式本地化视觉音效

本文主要讲述了如何通过训练神经网络来定位视频中可见的声源，采用对图像难样本强化学习的方法以提升定位精度。同时，作者还介绍了一个新的数据集 VGG-Sound Source benchmark，并展示了该算法在其上的最先进性能。

Apr, 2021

声源定位是关于跨模态对齐的全部内容

我们提出了一个跨模态对齐任务作为声源定位的联合任务，以更好地学习音频和视觉模态之间的交互，并在声源定位和跨模态检索方面超越了现有的方法，从而实现了较高的定位性能和强大的跨模态语义理解。

Sep, 2023

音频视觉空间融合与递归注意力的稳健声源定位

提出了一种音频 - 视觉空间整合网络，利用音频和视觉模态的空间线索来模仿人类在检测制造声音的对象时的行为，并引入了递归注意网络来递归地专注于对象，从而形成更准确的注意区域，通过利用音频 - 视觉模态的空间线索和递归地关注对象，我们的方法可以实现更稳健的声源定位，全面的实验结果表明了该方法优于现有方法。

Aug, 2023

迭代对比学习的无监督声音定位

本文提出了一种无需数据注释的迭代对比学习框架，用于声音定位任务，在图像中预测的定位结果和从音频信号中推断的语义关系被用作伪标签，并通过迭代策略逐渐促进声源的定位。实验结果表明，该框架在声音定位任务上表现良好，优于现有的无监督和弱监督方法。

Apr, 2021

从粗定位到精确定位的多声源定位

我们开发了一个基于视听学习框架的两阶段音频可视定位方法来解决在自然生动的视频中需要定位多个声音源的问题，该方法能够有效地将声音与特定的视觉来源进行对齐。

Jul, 2020