通过自监督的时间延迟估计实现声音定位

ECCVApr, 2022

通过自监督的时间延迟估计实现声音定位

Sound Localization by Self-Supervised Time Delay Estimation

Ziyang Chen, David F. Fouhey, Andrew Owens

TL;DR该研究提出了使用自我监督的对比随机游走技术来学习立体声音频的对应关系，进而实现对声音的时间延迟估计，同时提出了一种多模态对比学习模型，可应用于特定人员在多扬声器混音情况下的面部视觉定位任务。

Abstract

Sounds reach one microphone in a stereo pair sooner than the other, resulting in an interaural time delay that conveys their directions. Estimating a sound's time delay requires finding correspondences between the signals recorded by each microphone. We propose to learn these correspon

interaural time delay self-supervision contrastive random walk multimodal contrastive learning visual tracking

发现论文，激发创造

迭代对比学习的无监督声音定位

本文提出了一种无需数据注释的迭代对比学习框架，用于声音定位任务，在图像中预测的定位结果和从音频信号中推断的语义关系被用作伪标签，并通过迭代策略逐渐促进声源的定位。实验结果表明，该框架在声音定位任务上表现良好，优于现有的无监督和弱监督方法。

Apr, 2021

利用立体声音进行自监督的移动车辆跟踪

该论文提出了一种利用未标记的音频 - 视觉数据进行物体定位的系统，使用自监督方法来实现跨模态的语音定位，其在声学车辆跟踪数据集上表现卓越并可用于光照条件不佳的车辆视觉定位。

Oct, 2019

左右分辨：学习视听的空间对应关系

使用自监督学习的方法，提出在音频流和视觉流中，通过匹配空间信息识别声源位置，通过实验得到能够有效训练的模型并通过大规模视频数据集 YouTube-ASMR-300K 进行评估，在音视频任务中得到比监督学习和其他自监督方法更高的性能，并证明了在球面导向视屏中拓展我们的自监督方法。

Jun, 2020

基于自监督视听匹配的区分性声音目标定位

本研究提出了一种两阶段学习框架，利用单一场景下的候选声音定位结果来学习鲁棒的对象表示，并通过引用预学习的对象知识生成了类感知对象本地化映射，在各种混音声音场景下选择声音和视觉对象类别分布的匹配，其中视听一致性被视为自我监督信号。实验结果表明，我们的模型在过滤无声对象和指出不同类别声音对象位置方面优于其他方法。

Oct, 2020

时序自监督的音视频对比学习

本文提出了一种自我监督学习方法，用于学习视频的表示，结合了 RGB 帧和相关的音频，通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置，并提出了新的对比目标。

Feb, 2023

通过概率空间建模的自监督神经音频视觉声源定位

该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统，旨在解决自主机器人理解周围环境的问题。

Jul, 2020

混合声音源的本地化

我们提出了一种同时定位视觉场景中多个声源的方法，使用 Jabri 等人的对比随机漫步所启发的模型，并结合了视听相似性度量，能够较好地解决声音混合的分离与声音和视觉信号的联合问题，实验结果表明该模型在定位多个声源方面优于其他自监督方法。

Nov, 2022

基于音视频对应的自监督目标检测

本文提出了一种基于音视频数据的无监督学习目标检测器的方法，采用自监督框架和对比目标优化设计，实现了不用监督方法到非常好的检测效果，还可以泛化扩展到包括乐器、飞机和猫等生活常见物体的检测。

Apr, 2021

自监督学习用于音视频发言人分离

提出自监督的音视频同步学习方法，通过引入动态三元组损失和多项式损失函数来解决说话人分离问题，结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率，并且介绍了一个新的大规模中文音视频语料库。

Feb, 2020

学习在视觉场景中定位声源

本文提出一种新颖的无监督学习算法，可以通过观察声音和视觉场景对来仅仅聚焦声音源，在仅仅几个监督的情况下可以有效地纠正错误的结论并定位声音源.

Mar, 2018