音频视觉空间融合与递归注意力的稳健声源定位

MMAug, 2023

音频视觉空间融合与递归注意力的稳健声源定位

Audio-Visual Spatial Integration and Recursive Attention for Robust Sound Source Localization

Sung Jin Um, Dongjin Kim, Jung Uk Kim

TL;DR提出了一种音频 - 视觉空间整合网络，利用音频和视觉模态的空间线索来模仿人类在检测制造声音的对象时的行为，并引入了递归注意网络来递归地专注于对象，从而形成更准确的注意区域，通过利用音频 - 视觉模态的空间线索和递归地关注对象，我们的方法可以实现更稳健的声源定位，全面的实验结果表明了该方法优于现有方法。

Abstract

The objective of the sound source localization task is to enable machines to detect the location of sound-making objects within a visual scene. While the audio modality provides spatial cues to locate the sound s

sound source localization audio-visual spatial integration network recursive attention network spatial cues sound source datasets

发现论文，激发创造

通过概率空间建模的自监督神经音频视觉声源定位

该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统，旨在解决自主机器人理解周围环境的问题。

Jul, 2020

发出声音的物体

本文提出了一种利用未标记视频进行跨模态自监督学习的网络架构，实现音频和视觉之间的信息检索和图像中声音对象的准确定位，同时探究了基于 AVC 任务的网络架构设计方法，并与此相关的数据准备问题进行了讨论。

Dec, 2017

声源定位是关于跨模态对齐的全部内容

我们提出了一个跨模态对齐任务作为声源定位的联合任务，以更好地学习音频和视觉模态之间的交互，并在声源定位和跨模态检索方面超越了现有的方法，从而实现了较高的定位性能和强大的跨模态语义理解。

Sep, 2023

学习在视觉场景中定位声源：分析与应用

本项研究提出一种基于双流网络的无监督算法，用于在视觉场景中定位声源，并针对该算法所存在的误差问题通过半监督学习进行修正，从而增强了算法的可靠性和泛化性。

Nov, 2019

弱监督音视频来源定位的深入探究

本文提出了一种新的视听源定位方法，通过扩展音频图片嵌入的训练数据以及采用新的评估方法来解决定位不准确和过拟合的问题。

Aug, 2022

学习在视觉场景中定位声源

本文提出一种新颖的无监督学习算法，可以通过观察声音和视觉场景对来仅仅聚焦声音源，在仅仅几个监督的情况下可以有效地纠正错误的结论并定位声音源.

Mar, 2018

感应网络：用于自监督声源定位的音频 - 视觉模态缺口填补

通过引入感应网络和自适应阈值选择策略，本研究提出了一种用于自我监督声源定位的方法，以解决模态不一致性问题，并实现音频 - 视觉的一致对齐。在 SoundNet-Flickr 和 VGG-Sound Source 数据集上的实验证实了其在不同挑战场景中相较于其他最先进方法的优越性能。

Aug, 2023

视频中响物定位的时空记忆网络

提出了一种利用时间同步和关联的声音和视觉信息的网络，用于视频中声音对象的本地化

Nov, 2021

一种统一的音视频学习框架：局部化、分离与识别

该研究提出了一种名为 OneAVM 的联合学习框架，该框架可以用于音频 - 视频源定位、分离和识别任务，其中共享的音频 - 视频编码器和任务特定的解码器是通过三个目标进行训练，包括本地化的音频 - 视觉对应丢失、视觉源分离和选择和用于强化视觉特征分离和定位的像素空间混合。经过在多个数据集上的广泛实验，证明了 OneAVM 的有效性，并在音频 - 视觉源定位、分离和最近邻识别任务之间展现了强大的正向转移。

May, 2023

简单实现的视觉声音定位

本文提出了一种名为 EZ-VSL 的简单而有效的无监督音频 - 视觉源定位方法，旨在识别视频中的可见声源，其采用对齐音频和视觉空间的方法来实现，在 Flickr SoundNet 和 VGG-Sound Source 数据集上均取得了良好的表现，特别是在 CIoU 方面从 76.80% 提高到了 83.94%。

Mar, 2022