通过说话人聚类的端到端语音分离算法 Wavesplit

Feb, 2020

通过说话人聚类的端到端语音分离算法 Wavesplit

Wavesplit: End-to-End Speech Separation by Speaker Clustering

Neil Zeghidour, David Grangier

TL;DRWavesplit 是一种端到端的源分离系统，可以通过聚类推断每个源的表示，并给出估计的源信号，从而重新定义干净的混合 2 或 3 个讲话者（WSJ0-2/3mix）以及嘈杂和混响环境（WHAM/WHAMR）的最新技术水平。

Abstract

We introduce wavesplit, an end-to-end source separation system. From a single mixture, the model infers a representation for each source a

wavesplit source separation representation clustering speech separation

发现论文，激发创造

未知发言者数量的递归语音分离

该论文提出了一种用于未知扬声器数量的单通道扬声器非特定多扬声器语音分离方法，其中引入了排列不变训练，使模型具有递归性，并且通过使用基于深度神经网络的分类器进行递归分离来更准确地估计混音中扬声器数量，从而在 WSJ0-2mix 和 WSJ0-3mix 数据集上实现了最先进的结果，具有可扩展性和准确性。

Apr, 2019

使用深度聚类的单通道多说话者声音分离

本文使用基于深度学习的深度聚类方法及信号逼近技术，改进基线深度聚类算法，显著补偿了音频信号分离中的低信噪比问题，实现了在多说话人场景下的语音信号分离，通过自动语音识别实验，该算法在混响背景下将语音识别错误率从 89.1% 降至 30.8%，有效解决了鸡尾酒会效应问题。

Jul, 2016

无预训练的端到端单声道多说话人 ASR 系统

本文提出了一种最先进的单声道多说话者端到端自动语音识别模型，通过利用单个注意力模块为每个分离的说话者和调度抽样进一步提高性能，实验表明该方法可以在分离重叠的语音和识别分离的流方面提高端到端模型的性能。

Nov, 2018

端到端多通道语音分离

本文提出了一种基于端到端的多通道语音分离模型，通过可学习空间特征的提出，在 WSJ0 远场语音分离任务中显著改进了单通道和传统多通道方法的性能。

May, 2019

WHAMR!: 有噪声和混响的单通道语音分离

本研究提出了 WHAMR!，它是 WHAM! 的一个增强版本，用于对语音分离系统的性能进行基准测试，包括反射。我们评估了当前的技术模型以及新引入的模型的性能。

Oct, 2019

LibriMix：一个通用语音分离开源数据集

本文介绍了一种解决训练数据与测试数据相似度低导致模型泛化性能下降的方法：设计了一个基于 LibriSpeech 的语音混合数据集 LibriMix，证明使用 LibriMix 训练的深度学习模型，在各种条件下比使用 WHAM! 训练的模型表现更优，为实现更真实的对话场景语音分离进行了探索。

May, 2020

WHAM!：将语音分离扩展至嘈杂环境

本文旨在通过创建由两个讲话人混合的音频和真实环境噪声样本组成的 WSJ0 嬉皮士环境混合（WHAM！）数据集，对 speech separation 的性能进行更加真实和具有挑战性的评估和基准测试。虽然随着噪声的增加隔离性能下降，但对于大多数方法来说，与噪声信号相比，我们仍然观察到实质性的增益。

Jul, 2019

会议在线发言人分化的语音分离指导

我们介绍了一种新的基于语音分离引导的在线发言人分化方案，适用于持续变动的说话人数量的长时间会议录音。

Jan, 2024

定位实现语音分离的保密锥

使用深度网络在波形领域内，以角度感兴趣和角度窗口大小为输入，同时定位来源并分离个别说话者，以实现无限制数量并在高背景噪声下取得最先进的成果。

Oct, 2020

时空神经滤波器：方向感知的端对端多通道目标语音分离

本文提出了一种时空神经滤波器，通过方向信息的辅助作用，从具有混响的多人语音混合物中直接估计目标语音波形，以提高目标和干扰源之间的时域、频域和空域可辨识度，并设计了一种全卷积自动编码器框架用于快速和端到端的语音分离处理。

Jan, 2020