面向说话人不可知的多人语音分离的深度模型置换不变训练

Jul, 2016

面向说话人不可知的多人语音分离的深度模型置换不变训练

Permutation Invariant Training of Deep Models for Speaker-Independent Multi-talker Speech Separation

Dong Yu, Morten Kolbæk, Zheng-Hua Tan, Jesper Jensen

TL;DR本研究提出了一种新的深度学习模型，用于解决语音分离的 Cocktail-party 问题，它支持排列不变训练（PIT），实验表明 PIT 的有效性可以解决语音分离中的标签置换问题，从而实现自动会议记录和多方人机交互等的应用。

Abstract

We propose a novel deep learning model, which supports permutation invariant training (PIT), for speaker independent multi-talker speech separati

deep learning speech separation cocktail-party problem permutation invariant training multi-talker

发现论文，激发创造

基于深度递归神经网络的话语级别不变置换训练的多说话者语音分离

本文提出了逐句级别的置换不变训练（uPIT）技术，利用循环神经网络实现了多说话人语音分离，无需事先了解信号时长、说话人数量、身份和性别，且模型具有很好的泛化性能，在实验中表现优异。

Mar, 2017

使用置换不变训练技术识别多说话者语音

本文提出了一种新的技术，通过排列不变训练 (PIT) 来直接识别混合语音中的多个语音流，解决了标签置换和说话人追踪问题。

Mar, 2017

优化置换训练的多说话人单通道语音分离

本研究提出一种使用匈牙利算法进行排列不变训练的神经语音分离方法，可以高效地处理多达 20 个说话者的语音数据。

Apr, 2021

采用置换不变训练的单通道多说话人语音识别

本文探讨了如何通过扩展置换不变训练（PIT）方法并引入前端特征分离模块（最小均方误差标准）和后端识别模块（最小交叉熵标准），解决在多说话人混合语音识别中的问题，并且在 AMI 数据集（包括二人和三人的混音语音）的实验中，相对于同类不同说话人的语音识别系统，识别率提高了 45% 和 25%。

Jul, 2017

未知发言者数量的递归语音分离

该论文提出了一种用于未知扬声器数量的单通道扬声器非特定多扬声器语音分离方法，其中引入了排列不变训练，使模型具有递归性，并且通过使用基于深度神经网络的分类器进行递归分离来更准确地估计混音中扬声器数量，从而在 WSJ0-2mix 和 WSJ0-3mix 数据集上实现了最先进的结果，具有可扩展性和准确性。

Apr, 2019

无监督单通道重叠语音识别中的渐进联合建模

提出一种基于模块化结构、渐进式预训练、转移学习以及鉴别性训练标准的神经网络模型，相较于现有模型，该模型在解决无监督单通道重叠语音识别方面表现更为优秀，能够取得超过 30% 的远程词错误率相对改进。

Jul, 2017

单声道多说话人语音分离使用高效 Transformer 模型

鸡尾酒会问题是指从多个说话者的混合语音中分离或区分单个说话者变得困难的情境。本研究采用基于 Transformer 架构及其高效形式的语音分离模型，在 LibriMix 数据集上进行训练，该数据集包含多样的说话者语音。该模型能从混合音频输入中分离出两个不同的说话者源，实现了对语音分离模型计算复杂度的降低，并在性能与流行的语音分离模型之间取得了显著进展。该项目预计将为以计算效率为核心的语音分离领域的持续研究做出贡献。

Jul, 2023

无需转写的噪声和混响多说话人自动语音识别的语音分离模型微调

该论文提出了一种无需参考文本信息的联合训练方法，利用预训练的自动语音识别编码器的嵌入差异作为损失，通过改进的排列不变训练（PIT）方法 —— 引导式 PIT（GPIT），在不同度量指标上取得了 6.4% 的词错误率（WER）改善和感知度量指标（如短时客观清晰度）的提升。

Jun, 2024

使用预训练的 Diffusion 模型改善源分离

本文研究了语音分离问题，通过将分离模型和扩散模型的输出线性相结合，并利用学习到的权重来实现在多说话人的同时达到前所未有的语音分离效果，从而推翻了先前成立的基于人类语音确定性模型的上界限制。

Jan, 2023

使用控制延迟的 BLSTM 进行单通道多说话人语音分离的语音级置换不变训练

本文提出使用延迟控制的 BLSTM (LC-BLSTM) 以在推理期间完成低延迟和良好性能的语音分离，并发现在使用 LC-BLSTM 期间，uPIT 优于 cPIT，进一步通过跨块说话者跟踪（ST）可以提高 uPIT-LC-BLSTM 的分离性能，并且在 WSJ0 两个人混音语音分离任务中评估，uPIT-BLSTM 和 uPIT-LC-BLSTM 之间的信号失真比（SDR）的绝对差距缩小到 0.7dB 以内。

Dec, 2019