利用分类信息进行单帧视觉声源分离

Jul, 2020

利用分类信息进行单帧视觉声源分离

Leveraging Category Information for Single-Frame Visual Sound Source Separation

Lingyu Zhu, Esa Rahtu

TL;DR本研究旨在通过视觉线索从给定声音混合物中识别声音组件。本研究提出了两个模型，分别使用单个视频帧，以音源类别作为分离过程的信息。在 MUSIC 数据集实验中，两个模型相比于几种基线方法获得了可比较或更好的性能。

Abstract

visual sound source separation aims at identifying sound components from a given sound mixture with the presence of visual cues. Prior works have demonstrated impressive results, but with the expense of large multi-stage architectures and complex data representations (e.g. optical flow

visual sound source separation single video frame sound source category category labels music dataset

发现论文，激发创造

视觉对象声音的分离

本文提出了一种共分离训练范式，可以从未标记的多源视频中学习对象级别的声音，通过新颖的训练目标，训练出深度神经网络的分离音频对于外观相似的对象具有一致性可识别的特性，从而在音频源分离和降噪方面获得了最先进的结果。

Apr, 2019

通过观察未标记的视频学习分离物体声音

通过使用深度多实例多标签学习框架来解耦音频频率按照每个视觉对象映射到个人视觉对象，即使没有独立观察 / 听到这些对象，从而学习从未标记的视频中的音频可分离对象模型，然后利用视觉背景在新视频中执行音频源分离。

Apr, 2018

利用自监督运动表示进行视觉引导的声源分离和定位

本文提出了一种基于视音频的声源分离方法，其中包括二阶段的体系结构，用于外观和动作特征提取，并引入了音频 - 运动嵌入框架，以明确表示与声音相关的动态物体，该方法无需预训练关键点检测器或光流测量仪，在两个比较具有挑战性的数据集上取得了最先进的性能表现。

Apr, 2021

自监督音视频共分割

本文介绍了一种利用神经网络结合自我监督从自然视频学习进行视觉目标分割和音源分离的模型，通过学习来自然视频实现对于神经网络中不同分区域分配不同概念的语义类别，从而实现了音视频训练后的独立声音源分离和图像分割。与基准测试相比，实验证明这种去耦合模型在语义分割和声音源分离任务上表现优异。

Apr, 2019

弱标注数据源分离：一种计算听觉场景分析方法

本研究提出一种基于弱标注数据训练的源分离框架，利用 AudioSet 训练的音频事件检测系统，实现了对 527 种声音类别的分离，采用了 U-Net 结构，平均信噪比为 5.67dB。

Feb, 2020

从粗定位到精确定位的多声源定位

我们开发了一个基于视听学习框架的两阶段音频可视定位方法来解决在自然生动的视频中需要定位多个声音源的问题，该方法能够有效地将声音与特定的视觉来源进行对齐。

Jul, 2020

音频视觉预测编码引导的声源分离

本论文提出了一种参数高效且有效的音频 - 视觉预测编码方法，该方法使用 ResNet-based 视频分析网络和声音分离网络提取音频特征，融合多模态信息并在同一体系结构中预测声音分离掩码来交替地最小化特征之间的预测误差，同时还开发了有效的自监督学习策略。

Jun, 2023

一种统一的音视频学习框架：局部化、分离与识别

该研究提出了一种名为 OneAVM 的联合学习框架，该框架可以用于音频 - 视频源定位、分离和识别任务，其中共享的音频 - 视频编码器和任务特定的解码器是通过三个目标进行训练，包括本地化的音频 - 视觉对应丢失、视觉源分离和选择和用于强化视觉特征分离和定位的像素空间混合。经过在多个数据集上的广泛实验，证明了 OneAVM 的有效性，并在音频 - 视觉源定位、分离和最近邻识别任务之间展现了强大的正向转移。

May, 2023

学习在视觉场景中定位声源

本文提出一种新颖的无监督学习算法，可以通过观察声音和视觉场景对来仅仅聚焦声音源，在仅仅几个监督的情况下可以有效地纠正错误的结论并定位声音源.

Mar, 2018

基于语言引导的三模态一致性音视频源分离

利用自监督学习方法，通过自然语言查询基于无标注视频和音频对进行音频源分离的学习，以学习将声音发射对象的语言描述与其视觉特征和相应的音频波形组件相结合，其方法通过视觉 - 语言基础模型和两种新的损失函数提供伪目标监督，并在推理阶段能够分离声音，即使没有目标检测器或文本标签。

Mar, 2023