WHAMR!: 有噪声和混响的单通道语音分离
本文旨在通过创建由两个讲话人混合的音频和真实环境噪声样本组成的 WSJ0 嬉皮士环境混合(WHAM!)数据集,对 speech separation 的性能进行更加真实和具有挑战性的评估和基准测试。虽然随着噪声的增加隔离性能下降,但对于大多数方法来说,与噪声信号相比,我们仍然观察到实质性的增益。
Jul, 2019
本文介绍了一种解决训练数据与测试数据相似度低导致模型泛化性能下降的方法:设计了一个基于 LibriSpeech 的语音混合数据集 LibriMix,证明使用 LibriMix 训练的深度学习模型,在各种条件下比使用 WHAM! 训练的模型表现更优,为实现更真实的对话场景语音分离进行了探索。
May, 2020
本文提出了一种新的无监督算法损失函数,称为混响作为监督(RAS),使用两个信道的混合信号,训练神经网络以分离源,并通过维纳滤波器来评估所分离出的混响信号。实验结果表明,相对于只使用已标注数据和使用完整数据的有监督算法,本方法在只有 5% 到 10% 的标注数据时可以获得可观的性能优越性。
Nov, 2022
Wavesplit 是一种端到端的源分离系统,可以通过聚类推断每个源的表示,并给出估计的源信号,从而重新定义干净的混合 2 或 3 个讲话者(WSJ0-2/3mix)以及嘈杂和混响环境(WHAM/WHAMR)的最新技术水平。
Feb, 2020
深度学习在语音分离方面的应用及其对多说话人语音识别的整合进行了深入研究,并提出了一种通过复杂谱映射和自监督学习表示进行的训练策略,从而在噪声和混响环境下显著提升多说话人语音识别性能。
Jul, 2023
通过全面将视频信息融入系统的所有组件,我们提出了一种音频 - 视觉多通道语音分离、去混响和识别方法,有效地解决了包含重叠发言者、噪声和混响的鸡尾酒会言语的准确识别问题。
Jul, 2023
本文提出了一个改进的训练框架,用于训练单声道神经增强模型,以提高鲁棒语音识别的性能。该框架利用现有混合不变训练准则,扩展了未配对的干净语音和真实嘈杂数据,提高了从真实嘈杂语音中分离出来的语音质量,并通过处理和未处理信号的混合来缓解处理伪影。该方法在单通道 CHiME-3 真实测试集上进行实验证明,在不重新训练扭曲数据的情况下,与在监督模式下使用不匹配的模拟数据或在无监督模式下使用匹配的真实数据训练的增强系统相比,相对 WER 减少了 16% 到 39%。
May, 2022
本文主要研究匹配情况下的语音增强问题,提出了一种基于联合 VAE 映射的方法,将远场的语音特征转换为近距离的特征,实验结果表明,改进的方法比 DA 方法和直接使用远场特征训练 AM 的方法分别在 WER 上提高了 2.5% 和 3.96%。
Apr, 2022
我们提出了一个神经网络模型,可以使用两个麦克风在不同的角度区域将目标语音源与干扰源分离。该模型使用模拟的室内脉冲响应进行训练,无需收集真实的脉冲响应。通过依赖特定的角度区域和多个房间模拟,该模型利用一致的到达时间差(TDOA)线索,或者我们称之为延迟对比,将目标和干扰源分离,同时在各种混响环境中保持稳健性。我们展示了该模型不仅适用于具有稍微不同麦克风几何结构的商用设备,而且优于我们之前使用同一设备上的一个额外麦克风的工作。该模型在设备上实时运行,适用于低延迟的流媒体应用,如电话和视频会议。
Jan, 2024
本文提出一个新颖的系统用于从多人信号中分离目标说话者的声音,并通过两个神经网络来训练:说话人识别网络和谱掩蔽网络。该系统可明显降低多人信号上的语音识别错误率,并在单人信号上最小限度地降低错误率。
Oct, 2018