学习通过空间区域分离音频

ICMLJul, 2022

Learning to Separate Voices by Spatial Regions

Zhongweiyang Xu, Romit Roy Choudhury

TL;DR本文提出一种两阶段的自我监督框架，旨在实现耳机和助听器等双耳应用中的音频语音分离，该方法通过区域方式将具有细粒度空间属性的自适应信号从底噪中分离出来进行训练，并表现出远超通用监督学习的性能。

Abstract

We consider the problem of audio voice separation for binaural applications, such as earphones and hearing aids. While today's neural networks perform remarkably well (separating $4+$ sources with 2 microphones)

audio voice separation neural networks supervised learning self-supervised learning personalized signals

发现论文，激发创造

实时双耳语音分离并保留空间提示

本文提出了一种基于 TasNet 的多输入多输出的语音分离算法，该算法能够保留声源的空间信息，实现实时修改声学场景，并在不同声学场景中显著改善分离性能并保持位置感知。

Feb, 2020

自监督音视频共分割

本文介绍了一种利用神经网络结合自我监督从自然视频学习进行视觉目标分割和音源分离的模型，通过学习来自然视频实现对于神经网络中不同分区域分配不同概念的语义类别，从而实现了音视频训练后的独立声音源分离和图像分割。与基准测试相比，实验证明这种去耦合模型在语义分割和声音源分离任务上表现优异。

Apr, 2019

定位实现语音分离的保密锥

使用深度网络在波形领域内，以角度感兴趣和角度窗口大小为输入，同时定位来源并分离个别说话者，以实现无限制数量并在高背景噪声下取得最先进的成果。

Oct, 2020

通过概率空间建模的自监督神经音频视觉声源定位

该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统，旨在解决自主机器人理解周围环境的问题。

Jul, 2020

视觉对象声音的分离

本文提出了一种共分离训练范式，可以从未标记的多源视频中学习对象级别的声音，通过新颖的训练目标，训练出深度神经网络的分离音频对于外观相似的对象具有一致性可识别的特性，从而在音频源分离和降噪方面获得了最先进的结果。

Apr, 2019

双耳角度分离网络

我们提出了一个神经网络模型，可以使用两个麦克风在不同的角度区域将目标语音源与干扰源分离。该模型使用模拟的室内脉冲响应进行训练，无需收集真实的脉冲响应。通过依赖特定的角度区域和多个房间模拟，该模型利用一致的到达时间差（TDOA）线索，或者我们称之为延迟对比，将目标和干扰源分离，同时在各种混响环境中保持稳健性。我们展示了该模型不仅适用于具有稍微不同麦克风几何结构的商用设备，而且优于我们之前使用同一设备上的一个额外麦克风的工作。该模型在设备上实时运行，适用于低延迟的流媒体应用，如电话和视频会议。

Jan, 2024

使用跳过 - 滤波连接和循环推理时间频率掩模的单声道歌声分离

该论文提出了一种基于深度学习的歌声分离方法，学习和优化了源依赖性遮罩，不需要使用后处理步骤，并引入了循环推断算法、稀疏变换步骤和学习去噪滤波器，同时也提高了单声道歌声分离的性能。

Nov, 2017

基于音频查询的音乐源分离

这篇论文提出了一种基于音频查询的音乐源分离方法，可以通过查询信号明确地编码源信息，以及在无查询条件下生成通过潜空间插值连续输出的分离掩模。

Aug, 2019

弱标注数据源分离：一种计算听觉场景分析方法

本研究提出一种基于弱标注数据训练的源分离框架，利用 AudioSet 训练的音频事件检测系统，实现了对 527 种声音类别的分离，采用了 U-Net 结构，平均信噪比为 5.67dB。

Feb, 2020

应用于歌声分离的对抗半监督音频源分离技术

本文介绍了一种新的音乐源分离算法，使用对抗训练让分离器的输出更加真实，并取得了对于歌声分离的较好效果。

Oct, 2017