利用变换不变性和等变性进行自监督声音定位

MMJun, 2022

利用变换不变性和等变性进行自监督声音定位

Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation

Jinxiang Liu, Chen Ju, Weidi Xie, Ya Zhang

TL;DR提出一种简单而有效的自监督框架，用于音频 - 视觉表示学习，以定位视频中的声音源。通过系统地研究数据增强的效果，揭示出数据增强的组成对学习有用的表示起到了至关重要的作用，并且实验证明了该模型在两个声音定位基准测试上显著优于以前的方法。

Abstract

We present a simple yet effective self-supervised framework for audio-visual representation learning, to localize the sound source in vide

self-supervised audio-visual representation learning sound localization data augmentations

发现论文，激发创造

视频中音视频对象的自监督学习

本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型，并通过注意力定位和分组声源，光流聚合信息等方式提高了模型的准确度。实验表明，本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务，同时，使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。

Aug, 2020

学习在视觉场景中定位声源：分析与应用

本项研究提出一种基于双流网络的无监督算法，用于在视觉场景中定位声源，并针对该算法所存在的误差问题通过半监督学习进行修正，从而增强了算法的可靠性和泛化性。

Nov, 2019

简单实现的视觉声音定位

本文提出了一种名为 EZ-VSL 的简单而有效的无监督音频 - 视觉源定位方法，旨在识别视频中的可见声源，其采用对齐音频和视觉空间的方法来实现，在 Flickr SoundNet 和 VGG-Sound Source 数据集上均取得了良好的表现，特别是在 CIoU 方面从 76.80% 提高到了 83.94%。

Mar, 2022

EquiAV：利用等变性进行音频视觉对比学习

在自监督音频 - 视觉表示学习方面的最新进展中，引入了 EquiAV 框架，通过利用等变性来实现音频 - 视觉对比学习，并通过共享的基于注意力的转换预测器实现特征聚合，从而提供了稳健的监督。EquiAV 在各种音频 - 视觉基准测试中优于之前的工作。

Mar, 2024

迭代对比学习的无监督声音定位

本文提出了一种无需数据注释的迭代对比学习框架，用于声音定位任务，在图像中预测的定位结果和从音频信号中推断的语义关系被用作伪标签，并通过迭代策略逐渐促进声源的定位。实验结果表明，该框架在声音定位任务上表现良好，优于现有的无监督和弱监督方法。

Apr, 2021

通过概率空间建模的自监督神经音频视觉声源定位

该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统，旨在解决自主机器人理解周围环境的问题。

Jul, 2020

弱监督音视频来源定位的深入探究

本文提出了一种新的视听源定位方法，通过扩展音频图片嵌入的训练数据以及采用新的评估方法来解决定位不准确和过拟合的问题。

Aug, 2022

学习在视觉场景中定位声源

本文提出一种新颖的无监督学习算法，可以通过观察声音和视觉场景对来仅仅聚焦声音源，在仅仅几个监督的情况下可以有效地纠正错误的结论并定位声音源.

Mar, 2018

混合声音源的本地化

我们提出了一种同时定位视觉场景中多个声源的方法，使用 Jabri 等人的对比随机漫步所启发的模型，并结合了视听相似性度量，能够较好地解决声音混合的分离与声音和视觉信号的联合问题，实验结果表明该模型在定位多个声源方面优于其他自监督方法。

Nov, 2022

基于自监督视听匹配的区分性声音目标定位

本研究提出了一种两阶段学习框架，利用单一场景下的候选声音定位结果来学习鲁棒的对象表示，并通过引用预学习的对象知识生成了类感知对象本地化映射，在各种混音声音场景下选择声音和视觉对象类别分布的匹配，其中视听一致性被视为自我监督信号。实验结果表明，我们的模型在过滤无声对象和指出不同类别声音对象位置方面优于其他方法。

Oct, 2020