通过概率空间建模的自监督神经音频视觉声源定位

Jul, 2020

通过概率空间建模的自监督神经音频视觉声源定位

Self-supervised Neural Audio-Visual Sound Source Localization via Probabilistic Spatial Modeling

Yoshiki Masuyama, Yoshiaki Bando, Kohei Yatabe, Yoko Sasaki, Masaki Onishi...

TL;DR该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统，旨在解决自主机器人理解周围环境的问题。

Abstract

Detecting sound source objects within visual observation is important for autonomous robots to comprehend surrounding environments. Since sounding objects have a large variety with different appearances in our li

autonomous robots self-supervised learning multichannel audio signals deep neural networks sound source objects

发现论文，激发创造

自监督音视频共分割

本文介绍了一种利用神经网络结合自我监督从自然视频学习进行视觉目标分割和音源分离的模型，通过学习来自然视频实现对于神经网络中不同分区域分配不同概念的语义类别，从而实现了音视频训练后的独立声音源分离和图像分割。与基准测试相比，实验证明这种去耦合模型在语义分割和声音源分离任务上表现优异。

Apr, 2019

视频中音视频对象的自监督学习

本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型，并通过注意力定位和分组声源，光流聚合信息等方式提高了模型的准确度。实验表明，本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务，同时，使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。

Aug, 2020

音频视觉空间融合与递归注意力的稳健声源定位

提出了一种音频 - 视觉空间整合网络，利用音频和视觉模态的空间线索来模仿人类在检测制造声音的对象时的行为，并引入了递归注意网络来递归地专注于对象，从而形成更准确的注意区域，通过利用音频 - 视觉模态的空间线索和递归地关注对象，我们的方法可以实现更稳健的声源定位，全面的实验结果表明了该方法优于现有方法。

Aug, 2023

学习在视觉场景中定位声源

本文提出一种新颖的无监督学习算法，可以通过观察声音和视觉场景对来仅仅聚焦声音源，在仅仅几个监督的情况下可以有效地纠正错误的结论并定位声音源.

Mar, 2018

学习在视觉场景中定位声源：分析与应用

本项研究提出一种基于双流网络的无监督算法，用于在视觉场景中定位声源，并针对该算法所存在的误差问题通过半监督学习进行修正，从而增强了算法的可靠性和泛化性。

Nov, 2019

基于音视频对应的自监督目标检测

本文提出了一种基于音视频数据的无监督学习目标检测器的方法，采用自监督框架和对比目标优化设计，实现了不用监督方法到非常好的检测效果，还可以泛化扩展到包括乐器、飞机和猫等生活常见物体的检测。

Apr, 2021

基于自监督视听匹配的区分性声音目标定位

本研究提出了一种两阶段学习框架，利用单一场景下的候选声音定位结果来学习鲁棒的对象表示，并通过引用预学习的对象知识生成了类感知对象本地化映射，在各种混音声音场景下选择声音和视觉对象类别分布的匹配，其中视听一致性被视为自我监督信号。实验结果表明，我们的模型在过滤无声对象和指出不同类别声音对象位置方面优于其他方法。

Oct, 2020

自监督预测学习：一种无需负样本的视觉场景声源定位方法

本文提出了自监督预测学习 (SSPL) 方法，通过显式正样本挖掘以实现声音定位，将声音来源与视频帧的两个增强视图相结合，并引入了预测编码模块以帮助 SSPL 逐步聚焦目标对象和有效降低正向对难度。实验结果表明，SSPL 在两个标准的声音定位基准测试中优于现有最佳方法，在 SoundNet-Flickr 上将 cIoU 和 AUC 分别提高了 8.6％和 3.4％。

Mar, 2022

弱监督音视频来源定位的深入探究

本文提出了一种新的视听源定位方法，通过扩展音频图片嵌入的训练数据以及采用新的评估方法来解决定位不准确和过拟合的问题。

Aug, 2022

双耳声音的语义物体预测和空间声音超分辨率

本文介绍了一种基于双耳声音的声音制造对象的语义标记方法，利用跨模态蒸馏框架让视觉和听觉系统相互学习，形成多任务训练网络等手段提高系统的性能。

Mar, 2020