本文提出了一种基于 TasNet 的多输入多输出的语音分离算法,该算法能够保留声源的空间信息,实现实时修改声学场景,并在不同声学场景中显著改善分离性能并保持位置感知。
Feb, 2020
本文介绍了一种利用神经网络结合自我监督从自然视频学习进行视觉目标分割和音源分离的模型,通过学习来自然视频实现对于神经网络中不同分区域分配不同概念的语义类别,从而实现了音视频训练后的独立声音源分离和图像分割。与基准测试相比,实验证明这种去耦合模型在语义分割和声音源分离任务上表现优异。
Apr, 2019
使用深度网络在波形领域内,以角度感兴趣和角度窗口大小为输入,同时定位来源并分离个别说话者,以实现无限制数量并在高背景噪声下取得最先进的成果。
Oct, 2020
该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统,旨在解决自主机器人理解周围环境的问题。
Jul, 2020
本文提出了一种共分离训练范式,可以从未标记的多源视频中学习对象级别的声音,通过新颖的训练目标,训练出深度神经网络的分离音频对于外观相似的对象具有一致性可识别的特性,从而在音频源分离和降噪方面获得了最先进的结果。
我们提出了一个神经网络模型,可以使用两个麦克风在不同的角度区域将目标语音源与干扰源分离。该模型使用模拟的室内脉冲响应进行训练,无需收集真实的脉冲响应。通过依赖特定的角度区域和多个房间模拟,该模型利用一致的到达时间差(TDOA)线索,或者我们称之为延迟对比,将目标和干扰源分离,同时在各种混响环境中保持稳健性。我们展示了该模型不仅适用于具有稍微不同麦克风几何结构的商用设备,而且优于我们之前使用同一设备上的一个额外麦克风的工作。该模型在设备上实时运行,适用于低延迟的流媒体应用,如电话和视频会议。
Jan, 2024
该论文提出了一种基于深度学习的歌声分离方法,学习和优化了源依赖性遮罩,不需要使用后处理步骤,并引入了循环推断算法、稀疏变换步骤和学习去噪滤波器,同时也提高了单声道歌声分离的性能。
Nov, 2017
这篇论文提出了一种基于音频查询的音乐源分离方法,可以通过查询信号明确地编码源信息,以及在无查询条件下生成通过潜空间插值连续输出的分离掩模。
Aug, 2019
本研究提出一种基于弱标注数据训练的源分离框架,利用 AudioSet 训练的音频事件检测系统,实现了对 527 种声音类别的分离,采用了 U-Net 结构,平均信噪比为 5.67dB。
本文介绍了一种新的音乐源分离算法,使用对抗训练让分离器的输出更加真实,并取得了对于歌声分离的较好效果。
Oct, 2017