- 双通道滤波网络:面向语音分离的说话人感知建模
本文中,我们提出一种名为双路滤波器网络的新型模型,它由说话者模块和分离模块组成,旨在改善语音分离的性能,避免排列不变性训练的问题,并在 DPRNN-TasNet 基础上构建,不仅优于 DPRNN-TasNet,而且能够识别说话者信息。
- AAAI生成音乐混搭的音轨兼容性建模
研究利用隔离的乐音基础上进行音乐混音创作,提出了一种基于自监督和半监督学习的混音兼容性预测方法,并通过实验评估与基于规则的系统相比,确实可以提高音乐混音的质量。
- 定位实现语音分离的保密锥
使用深度网络在波形领域内,以角度感兴趣和角度窗口大小为输入,同时定位来源并分离个别说话者,以实现无限制数量并在高背景噪声下取得最先进的成果。
- VoiceFilter-Lite: 面向设备的实时定向语音分离技术用于语音识别
本论文介绍了一种能够实时运行于设备上的单通道源分离模型,其可以从一个目标说话者的语音信号中仅保留语音信息,以优化流式语音识别系统的表现。该模型具有分离源、单通道、语音识别、自适应运行时和实时这些特别之处,并通过使用一种新的不对称损失和采用自 - KDDaudioLIME: 采用声音分离实现可听解释
本文提出一种名为 audioLIME 的方法,采用了基于局部可解释的模型的解释扩展方法(LIME)并扩展了局部性的音乐定义,使用源分离提取的组件开关产生扰动,是解释方法具有可听性。并且,我们在两个不同的音乐标记系统上验证了 audioLIM - ECCVSep-Stereo: 基于可视化引导的立体声音频生成方法,通过关联源分离
该研究提出了一种统一的框架,将立体声音频生成和源分离相结合,通过使用可用的单声道数据来提高立体声音频生成的结果。
- 神经网络的通用声音选择器:听你想听的
本研究提出了一种基于神经网络的通用声音选择方法,可以直接从混合信号中选择用户指定的目标声音,并实现多个目标声音类别和未知源数的声音选择。
- 通过说话人聚类的端到端语音分离算法 Wavesplit
Wavesplit 是一种端到端的源分离系统,可以通过聚类推断每个源的表示,并给出估计的源信号,从而重新定义干净的混合 2 或 3 个讲话者(WSJ0-2/3mix)以及嘈杂和混响环境(WHAM/WHAMR)的最新技术水平。
- ICML深度生成先验模型用于源分离
本文提出了一种贝叶斯源分离方法,使用生成模型作为混合信号源分离组件的先验,噪声淬火 Langevin 动力学从后验生成分离的信号源,该方法在 MNIST 分离质量和 CIFAR-10 分离质量上实现了最先进的性能,并在 LSUN 上提供了定 - 弱标注数据源分离:一种计算听觉场景分析方法
本研究提出一种基于弱标注数据训练的源分离框架,利用 AudioSet 训练的音频事件检测系统,实现了对 527 种声音类别的分离,采用了 U-Net 结构,平均信噪比为 5.67dB。
- 波形域音乐源分离
本文比较了两种不同的音乐源分离模型:Conv-Tasnet 和 Demucs。实验结果表明,Demucs 模型通过采用恰当的数据增广技术,在音乐分离任务上优于 Conv-Tasnet 模型,同时其语音自然度表现也更佳。
- 训练学习的潜在目标,进行两步声源分离
本文提出了一种基于深度神经网络的源分离的两阶段训练方案,第一步学习将信号转换为使掩蔽分离性能最优的潜在空间,第二步训练在学习空间中操作的分离模块,并使用了一个可缩放失真比的 SI-SDR 损失函数来证明优化效果。通过各种声音分离实验,该方法 - Demucs: 深度源音频分离器及其在额外未标注数据中的应用
本文使用深度学习等方法对音乐进行源分离研究,提出了一种卷积和循环的模型,同时提出了一种新的方法来利用无标签的音乐数据,这些方法比现有的方法表现更好。
- 音频信号处理的深度学习
该研究文章综述了当前音频信号处理领域中基于深度学习的技术,着重介绍了其在语音、音乐、环境声音处理中的相同点和差异,强调了其潜在的交叉互补性。文章介绍了主要的特征表示和深度学习模型,以及其在音频识别和合成分离领域的应用,并最终确定了深度学习在 - 利用幅度和时间谱逼近损失优化说话者提取神经网络
提出了 SpeakerBeam-FE 方法进行说话者分离,通过幅度和时间频谱近似损失来估计目标说话者的相位敏感掩模,使用串接框架来将说话者嵌入编码到掩模估计网络中,实验结果表明,相对于 SBF 基准线,在 SDR 和 PESQ 方面,所提出 - SDR - 半熟还是熟透了?
该研究提出了一种简单、更稳健的量化语音增强和源分离算法的质量评估方法 —— 尺度不变的信噪比评估标准(SI-SDR),并且通过大量实验证明其优越性,相较于 BSS_eval 工具箱所采用的信噪比评估标准(SDR),SI-SDR 更为牢固、稳 - 基于乐器标签的端到端声源分离
本研究提出一种扩展的 Wave-U-Net 模型,通过可变数量源的端到端音乐源分离方法,并在瓶颈处使用仪器标签进行乘性调节,从而提高了分离结果,在此基础上实现了其他类型的调节,如音视频源分离和得分通知源分离。
- 端到端音乐源分离:在波形领域是否可能?
本论文研究使用端到端模型进行音乐信号源分离,在考虑所有可用信息的基础上实现对原始音频信号(包括相位部分)的源分离。结果表明,我们提出的一种基于 Wavenet 的模型和 Wave-U-Net 的性能都可以优于 DeepConvSep,一个基 - 利用离散表示进行源分离:Phasebook 和其相关技术
本文提出了基于离散表示的 magbook、phasebook 和 combook 三种新型层,它们可用于估计复杂的时频掩码和解决由于相位估计困难带来的混合信号重构问题。我们还介绍了如何在端到端学习框架中使用这些新型层,并在 wsj0-2mi - ICML使用相位特征改进基于 DNN 的音乐源分离
本文探讨了利用深度神经网络在音乐源分离中仅依赖幅度特征与在加入相位特征后分离性能的提升,提出了一种新的神经网络结构,该结构结合了幅度和相位,实验结果表明,相比仅使用幅度特征的网络,在 DSD100 测试集上使用相位衍生特征能够有效提升音频信