本文探讨了如何通过扩展置换不变训练(PIT)方法并引入前端特征分离模块(最小均方误差标准)和后端识别模块(最小交叉熵标准),解决在多说话人混合语音识别中的问题,并且在 AMI 数据集(包括二人和三人的混音语音)的实验中,相对于同类不同说话人的语音识别系统,识别率提高了 45% 和 25%。
Jul, 2017
本文提出了逐句级别的置换不变训练(uPIT)技术,利用循环神经网络实现了多说话人语音分离,无需事先了解信号时长、说话人数量、身份和性别,且模型具有很好的泛化性能,在实验中表现优异。
Mar, 2017
本研究提出了一种新的深度学习模型,用于解决语音分离的 Cocktail-party 问题,它支持排列不变训练(PIT),实验表明 PIT 的有效性可以解决语音分离中的标签置换问题,从而实现自动会议记录和多方人机交互等的应用。
Jul, 2016
提出一种基于模块化结构、渐进式预训练、转移学习以及鉴别性训练标准的神经网络模型,相较于现有模型,该模型在解决无监督单通道重叠语音识别方面表现更为优秀,能够取得超过 30% 的远程词错误率相对改进。
本研究提出一种使用匈牙利算法进行排列不变训练的神经语音分离方法,可以高效地处理多达 20 个说话者的语音数据。
Apr, 2021
该论文提出了一种无需参考文本信息的联合训练方法,利用预训练的自动语音识别编码器的嵌入差异作为损失,通过改进的排列不变训练(PIT)方法 —— 引导式 PIT(GPIT),在不同度量指标上取得了 6.4% 的词错误率(WER)改善和感知度量指标(如短时客观清晰度)的提升。
Jun, 2024
该论文提出了一种用于未知扬声器数量的单通道扬声器非特定多扬声器语音分离方法,其中引入了排列不变训练,使模型具有递归性,并且通过使用基于深度神经网络的分类器进行递归分离来更准确地估计混音中扬声器数量,从而在 WSJ0-2mix 和 WSJ0-3mix 数据集上实现了最先进的结果,具有可扩展性和准确性。
Apr, 2019
提出了一种基于 token 级别序列化输出训练 (t-SOT) 的流式说话者归属性自动语音识别 (SA-ASR) 模型,该模型可以在多人同时说话时实现低延迟的 “谁说了什么” 的识别,并提出了一种基于编码 - 解码的说话者嵌入提取器,可以从非重叠语音和重叠语音中为每个识别的令牌估计说话者表示。
Mar, 2022
本文提出了一种最先进的单声道多说话者端到端自动语音识别模型,通过利用单个注意力模块为每个分离的说话者和调度抽样进一步提高性能,实验表明该方法可以在分离重叠的语音和识别分离的流方面提高端到端模型的性能。
Nov, 2018
本文提出使用延迟控制的 BLSTM (LC-BLSTM) 以在推理期间完成低延迟和良好性能的语音分离,并发现在使用 LC-BLSTM 期间,uPIT 优于 cPIT,进一步通过跨块说话者跟踪(ST)可以提高 uPIT-LC-BLSTM 的分离性能,并且在 WSJ0 两个人混音语音分离任务中评估,uPIT-BLSTM 和 uPIT-LC-BLSTM 之间的信号失真比(SDR)的绝对差距缩小到 0.7dB 以内。
Dec, 2019