基于自监督视听匹配的区分性声音目标定位

Oct, 2020

基于自监督视听匹配的区分性声音目标定位

Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching

Di Hu, Rui Qian, Minyue Jiang, Xiao Tan, Shilei Wen...

TL;DR本研究提出了一种两阶段学习框架，利用单一场景下的候选声音定位结果来学习鲁棒的对象表示，并通过引用预学习的对象知识生成了类感知对象本地化映射，在各种混音声音场景下选择声音和视觉对象类别分布的匹配，其中视听一致性被视为自我监督信号。实验结果表明，我们的模型在过滤无声对象和指出不同类别声音对象位置方面优于其他方法。

Abstract

Discriminatively localizing sounding objects in cocktail-party, i.e., mixed sound scenes, is commonplace for humans, but still challenging for machines. In this paper, we propose a two-stage learning framework to perform self-supervised class-aware sounding →

sounding objects cocktail-party scenarios self-supervised learning audiovisual consistency object localization

发现论文，激发创造

视频中音视频对象的自监督学习

本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型，并通过注意力定位和分组声源，光流聚合信息等方式提高了模型的准确度。实验表明，本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务，同时，使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。

Aug, 2020

通过概率空间建模的自监督神经音频视觉声源定位

该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统，旨在解决自主机器人理解周围环境的问题。

Jul, 2020

基于音视频对应的自监督目标检测

本文提出了一种基于音视频数据的无监督学习目标检测器的方法，采用自监督框架和对比目标优化设计，实现了不用监督方法到非常好的检测效果，还可以泛化扩展到包括乐器、飞机和猫等生活常见物体的检测。

Apr, 2021

学习在视觉场景中定位声源

本文提出一种新颖的无监督学习算法，可以通过观察声音和视觉场景对来仅仅聚焦声音源，在仅仅几个监督的情况下可以有效地纠正错误的结论并定位声音源.

Mar, 2018

自监督音视频共分割

本文介绍了一种利用神经网络结合自我监督从自然视频学习进行视觉目标分割和音源分离的模型，通过学习来自然视频实现对于神经网络中不同分区域分配不同概念的语义类别，从而实现了音视频训练后的独立声音源分离和图像分割。与基准测试相比，实验证明这种去耦合模型在语义分割和声音源分离任务上表现优异。

Apr, 2019

利用立体声音进行自监督的移动车辆跟踪

该论文提出了一种利用未标记的音频 - 视觉数据进行物体定位的系统，使用自监督方法来实现跨模态的语音定位，其在声学车辆跟踪数据集上表现卓越并可用于光照条件不佳的车辆视觉定位。

Oct, 2019

迭代对比学习的无监督声音定位

本文提出了一种无需数据注释的迭代对比学习框架，用于声音定位任务，在图像中预测的定位结果和从音频信号中推断的语义关系被用作伪标签，并通过迭代策略逐渐促进声源的定位。实验结果表明，该框架在声音定位任务上表现良好，优于现有的无监督和弱监督方法。

Apr, 2021

音视频分割、声音定位、语义感知声音对象定位

本研究提出了一种音频 - 视觉实例感知分割方法，旨在克服数据集偏差，并通过探索音频 - 视觉语义相关性来实现有效的声音对象分割。

Jul, 2023

无先验源信息混合音频中学习视觉定位声源

本文提出了一种新颖的多声源定位方法，可以在不需要声源数量先验知识的情况下实现准确的声源定位。该方法利用迭代对象识别模块识别声音制造物体，并通过对象相似性感知聚类损失指导迭代对象识别模块有效地合并相同物体的区域，同时区分不同的物体和背景。通过在 MUSIC 和 VGGSound 数据集上进行广泛实验，对比现有方法，我们的方法在单声源和多声源的定位任务上均取得显著的性能提升。

Mar, 2024

学习在视觉场景中定位声源：分析与应用

本项研究提出一种基于双流网络的无监督算法，用于在视觉场景中定位声源，并针对该算法所存在的误差问题通过半监督学习进行修正，从而增强了算法的可靠性和泛化性。

Nov, 2019