该论文提出了一种用于未知扬声器数量的单通道扬声器非特定多扬声器语音分离方法,其中引入了排列不变训练,使模型具有递归性,并且通过使用基于深度神经网络的分类器进行递归分离来更准确地估计混音中扬声器数量,从而在 WSJ0-2mix 和 WSJ0-3mix 数据集上实现了最先进的结果,具有可扩展性和准确性。
Apr, 2019
本文使用基于深度学习的深度聚类方法及信号逼近技术,改进基线深度聚类算法,显著补偿了音频信号分离中的低信噪比问题,实现了在多说话人场景下的语音信号分离,通过自动语音识别实验,该算法在混响背景下将语音识别错误率从 89.1% 降至 30.8%,有效解决了鸡尾酒会效应问题。
Jul, 2016
本文提出了一种最先进的单声道多说话者端到端自动语音识别模型,通过利用单个注意力模块为每个分离的说话者和调度抽样进一步提高性能,实验表明该方法可以在分离重叠的语音和识别分离的流方面提高端到端模型的性能。
Nov, 2018
本文提出了一种基于端到端的多通道语音分离模型,通过可学习空间特征的提出,在 WSJ0 远场语音分离任务中显著改进了单通道和传统多通道方法的性能。
May, 2019
本研究提出了 WHAMR!,它是 WHAM! 的一个增强版本,用于对语音分离系统的性能进行基准测试,包括反射。我们评估了当前的技术模型以及新引入的模型的性能。
Oct, 2019
本文介绍了一种解决训练数据与测试数据相似度低导致模型泛化性能下降的方法:设计了一个基于 LibriSpeech 的语音混合数据集 LibriMix,证明使用 LibriMix 训练的深度学习模型,在各种条件下比使用 WHAM! 训练的模型表现更优,为实现更真实的对话场景语音分离进行了探索。
May, 2020
本文旨在通过创建由两个讲话人混合的音频和真实环境噪声样本组成的 WSJ0 嬉皮士环境混合(WHAM!)数据集,对 speech separation 的性能进行更加真实和具有挑战性的评估和基准测试。虽然随着噪声的增加隔离性能下降,但对于大多数方法来说,与噪声信号相比,我们仍然观察到实质性的增益。
Jul, 2019
我们介绍了一种新的基于语音分离引导的在线发言人分化方案,适用于持续变动的说话人数量的长时间会议录音。
Jan, 2024
使用深度网络在波形领域内,以角度感兴趣和角度窗口大小为输入,同时定位来源并分离个别说话者,以实现无限制数量并在高背景噪声下取得最先进的成果。
Oct, 2020
本文提出了一种时空神经滤波器,通过方向信息的辅助作用,从具有混响的多人语音混合物中直接估计目标语音波形,以提高目标和干扰源之间的时域、频域和空域可辨识度,并设计了一种全卷积自动编码器框架用于快速和端到端的语音分离处理。
Jan, 2020