使用置换不变训练技术识别多说话者语音

Mar, 2017

使用置换不变训练技术识别多说话者语音

Recognizing Multi-talker Speech with Permutation Invariant Training

Dong Yu, Xuankai Chang, Yanmin Qian

TL;DR本文提出了一种新的技术，通过排列不变训练 (PIT) 来直接识别混合语音中的多个语音流，解决了标签置换和说话人追踪问题。

Abstract

In this paper, we propose a novel technique for direct recognition of multiple speech streams given the single channel of mixed speech, without first separating them. Our technique is based on permutation invariant trai

speech recognition permutation invariant training single channel label permutation problem speaker tracing problem

发现论文，激发创造

采用置换不变训练的单通道多说话人语音识别

本文探讨了如何通过扩展置换不变训练（PIT）方法并引入前端特征分离模块（最小均方误差标准）和后端识别模块（最小交叉熵标准），解决在多说话人混合语音识别中的问题，并且在 AMI 数据集（包括二人和三人的混音语音）的实验中，相对于同类不同说话人的语音识别系统，识别率提高了 45% 和 25%。

Jul, 2017

基于深度递归神经网络的话语级别不变置换训练的多说话者语音分离

本文提出了逐句级别的置换不变训练（uPIT）技术，利用循环神经网络实现了多说话人语音分离，无需事先了解信号时长、说话人数量、身份和性别，且模型具有很好的泛化性能，在实验中表现优异。

Mar, 2017

面向说话人不可知的多人语音分离的深度模型置换不变训练

本研究提出了一种新的深度学习模型，用于解决语音分离的 Cocktail-party 问题，它支持排列不变训练（PIT），实验表明 PIT 的有效性可以解决语音分离中的标签置换问题，从而实现自动会议记录和多方人机交互等的应用。

Jul, 2016

无监督单通道重叠语音识别中的渐进联合建模

提出一种基于模块化结构、渐进式预训练、转移学习以及鉴别性训练标准的神经网络模型，相较于现有模型，该模型在解决无监督单通道重叠语音识别方面表现更为优秀，能够取得超过 30% 的远程词错误率相对改进。

Jul, 2017

优化置换训练的多说话人单通道语音分离

本研究提出一种使用匈牙利算法进行排列不变训练的神经语音分离方法，可以高效地处理多达 20 个说话者的语音数据。

Apr, 2021

无需转写的噪声和混响多说话人自动语音识别的语音分离模型微调

该论文提出了一种无需参考文本信息的联合训练方法，利用预训练的自动语音识别编码器的嵌入差异作为损失，通过改进的排列不变训练（PIT）方法 —— 引导式 PIT（GPIT），在不同度量指标上取得了 6.4% 的词错误率（WER）改善和感知度量指标（如短时客观清晰度）的提升。

Jun, 2024

未知发言者数量的递归语音分离

该论文提出了一种用于未知扬声器数量的单通道扬声器非特定多扬声器语音分离方法，其中引入了排列不变训练，使模型具有递归性，并且通过使用基于深度神经网络的分类器进行递归分离来更准确地估计混音中扬声器数量，从而在 WSJ0-2mix 和 WSJ0-3mix 数据集上实现了最先进的结果，具有可扩展性和准确性。

Apr, 2019

使用令牌级别的说话人嵌入进行分配流式讲话者自动语音识别

提出了一种基于 token 级别序列化输出训练 (t-SOT) 的流式说话者归属性自动语音识别 (SA-ASR) 模型，该模型可以在多人同时说话时实现低延迟的 “谁说了什么” 的识别，并提出了一种基于编码 - 解码的说话者嵌入提取器，可以从非重叠语音和重叠语音中为每个识别的令牌估计说话者表示。

Mar, 2022

无预训练的端到端单声道多说话人 ASR 系统

本文提出了一种最先进的单声道多说话者端到端自动语音识别模型，通过利用单个注意力模块为每个分离的说话者和调度抽样进一步提高性能，实验表明该方法可以在分离重叠的语音和识别分离的流方面提高端到端模型的性能。

Nov, 2018

使用控制延迟的 BLSTM 进行单通道多说话人语音分离的语音级置换不变训练

本文提出使用延迟控制的 BLSTM (LC-BLSTM) 以在推理期间完成低延迟和良好性能的语音分离，并发现在使用 LC-BLSTM 期间，uPIT 优于 cPIT，进一步通过跨块说话者跟踪（ST）可以提高 uPIT-LC-BLSTM 的分离性能，并且在 WSJ0 两个人混音语音分离任务中评估，uPIT-BLSTM 和 uPIT-LC-BLSTM 之间的信号失真比（SDR）的绝对差距缩小到 0.7dB 以内。

Dec, 2019