利用自监督运动表示进行视觉引导的声源分离和定位

Apr, 2021

利用自监督运动表示进行视觉引导的声源分离和定位

Visually Guided Sound Source Separation and Localization using Self-Supervised Motion Representations

Lingyu Zhu, Esa Rahtu

TL;DR本文提出了一种基于视音频的声源分离方法，其中包括二阶段的体系结构，用于外观和动作特征提取，并引入了音频 - 运动嵌入框架，以明确表示与声音相关的动态物体，该方法无需预训练关键点检测器或光流测量仪，在两个比较具有挑战性的数据集上取得了最先进的性能表现。

Abstract

The objective of this paper is to perform audio-visual sound source separation, i.e.~to separate component audios from a mixture based on the videos of sound sources. Moreover, we aim to pinpoint the source location in the input video sequence. Recent works have shown impressive audio-

audio-visual sound source separation source location prior knowledge two-stage architecture state-of-the-art performance

发现论文，激发创造

自监督音视频共分割

本文介绍了一种利用神经网络结合自我监督从自然视频学习进行视觉目标分割和音源分离的模型，通过学习来自然视频实现对于神经网络中不同分区域分配不同概念的语义类别，从而实现了音视频训练后的独立声音源分离和图像分割。与基准测试相比，实验证明这种去耦合模型在语义分割和声音源分离任务上表现优异。

Apr, 2019

一种统一的音视频学习框架：局部化、分离与识别

该研究提出了一种名为 OneAVM 的联合学习框架，该框架可以用于音频 - 视频源定位、分离和识别任务，其中共享的音频 - 视频编码器和任务特定的解码器是通过三个目标进行训练，包括本地化的音频 - 视觉对应丢失、视觉源分离和选择和用于强化视觉特征分离和定位的像素空间混合。经过在多个数据集上的广泛实验，证明了 OneAVM 的有效性，并在音频 - 视觉源定位、分离和最近邻识别任务之间展现了强大的正向转移。

May, 2023

视频中音视频对象的自监督学习

本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型，并通过注意力定位和分组声源，光流聚合信息等方式提高了模型的准确度。实验表明，本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务，同时，使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。

Aug, 2020

基于语言引导的三模态一致性音视频源分离

利用自监督学习方法，通过自然语言查询基于无标注视频和音频对进行音频源分离的学习，以学习将声音发射对象的语言描述与其视觉特征和相应的音频波形组件相结合，其方法通过视觉 - 语言基础模型和两种新的损失函数提供伪目标监督，并在推理阶段能够分离声音，即使没有目标检测器或文本标签。

Mar, 2023

Move2Hear：主动音视频源分离

本文介绍了一种使用增强学习来控制摄像头和麦克风位置提高音频分离质量的方法，解决了活跃的音视频源分离问题，并针对增强现实和移动机器人等场景进行了验证。

May, 2021

利用分类信息进行单帧视觉声源分离

本研究旨在通过视觉线索从给定声音混合物中识别声音组件。本研究提出了两个模型，分别使用单个视频帧，以音源类别作为分离过程的信息。在 MUSIC 数据集实验中，两个模型相比于几种基线方法获得了可比较或更好的性能。

Jul, 2020

通过观察未标记的视频学习分离物体声音

通过使用深度多实例多标签学习框架来解耦音频频率按照每个视觉对象映射到个人视觉对象，即使没有独立观察 / 听到这些对象，从而学习从未标记的视频中的音频可分离对象模型，然后利用视觉背景在新视频中执行音频源分离。

Apr, 2018

视觉对象声音的分离

本文提出了一种共分离训练范式，可以从未标记的多源视频中学习对象级别的声音，通过新颖的训练目标，训练出深度神经网络的分离音频对于外观相似的对象具有一致性可识别的特性，从而在音频源分离和降噪方面获得了最先进的结果。

Apr, 2019

从粗定位到精确定位的多声源定位

我们开发了一个基于视听学习框架的两阶段音频可视定位方法来解决在自然生动的视频中需要定位多个声音源的问题，该方法能够有效地将声音与特定的视觉来源进行对齐。

Jul, 2020

学习在视觉场景中定位声源：分析与应用

本项研究提出一种基于双流网络的无监督算法，用于在视觉场景中定位声源，并针对该算法所存在的误差问题通过半监督学习进行修正，从而增强了算法的可靠性和泛化性。

Nov, 2019