未知数量多方讲话者的声音分离

Feb, 2020

Voice Separation with an Unknown Number of Multiple Speakers

Eliya Nachmani, Yossi Adi, Lior Wolf

TL;DR我们提出了一种使用门控神经网络在多个处理步骤中训练以将不同数量的混合说话人分离的新方法，该方法在保持每个输出通道中的说话人不变的同时。我们为每个可能的说话人数量训练了不同的模型，并使用具有最多说话人数的模型来选择给定样本中的实际说话人数。该方法在音频分离方面远远超过当前的技术水平，特别是在超过两个说话人的情况下。

Abstract

We present a new method for separating a mixed audio sequence, in which multiple voices speak simultaneously. The new method employs gated neural networks that are trained to separate the voices at multiple processing s

发现论文，激发创造

基于深度递归神经网络的话语级别不变置换训练的多说话者语音分离

本文提出了逐句级别的置换不变训练（uPIT）技术，利用循环神经网络实现了多说话人语音分离，无需事先了解信号时长、说话人数量、身份和性别，且模型具有很好的泛化性能，在实验中表现优异。

Mar, 2017

基于深度吸引子网络的说话人无关语音分离

提出了一种新的深度学习框架来解决混合谱中时域-频域混淆的问题并有效恢复说话者语音，其中将混合信号的时频表示投影到高维嵌入空间，并为每个说话者创建一个参考点吸引器，并将说话者的嵌入向量强制聚集到其相应的吸引器点附近，该方法在 Wall Street Journal 数据集上表现出与其他最先进的深度学习方法相媲美甚至更好的性能。

Jul, 2017

分治法：一种深度 C 语音增强方法用于说话人无关的单声道扬声器分离

本研究从深度学习和计算听觉场景分析（CASA）的角度来处理与说话者无关的单声道扬声器分离问题。研究中，我们将多扬声器分离任务分解为同时分组和顺序分组两个阶段，并使用神经网络实现这两个阶段的分离。实验表明，这种方法在小型模型的情况下取得了最先进的结果。

Apr, 2019

优化置换训练的多说话人单通道语音分离

本研究提出一种使用匈牙利算法进行排列不变训练的神经语音分离方法，可以高效地处理多达20个说话者的语音数据。

Apr, 2021

SepIt: 接近单通道语音分离界限

该研究提出了一种基于深度神经网络的单通道语音分离方法，该方法通过迭代估计进行不同说话人的音频信号分离，并通过互信息准则进行测试样本的迭代次数确定，实验结果表明该方法在单通道语音分离的2, 3, 5和10个说话人的情况下均优于现有的最先进模型。

May, 2022

个性化调节与负向距离用于说话人分离

在这篇论文中，我们提出了两种演讲者感知设计来改进现有的演讲者分离解决方案，第一种模型是演讲者调节网络，它集成语音样本来生成个性化的演讲者条件，从而为分离模块提供了有信息的指导来产生良好的分离结果；第二种设计旨在减少分离语音中的非目标语音，我们提出了消极距离来惩罚通道输出中任何非目标语音的出现，并提出积极距离将分离语音驱向干净的目标语音，我们探索了加权和和三元组等两种不同的设置来集成这两个距离，形成组合辅助损失函数用于分离网络，实验结果表明我们提出的模型的有效性。

Oct, 2022

利用空间选择性深度非线性滤波器的多通道语音分离

本文中我们提出了基于深度神经网络和循环神经网络的空间选择性滤波器(SSF)，在多扬声器多声道分离任务中，可以从混合信号中提取出特定说话者的声音信息，并与直接分离方法进行了比较。结果表明，SSF具有更好的空间信息利用和泛化能力。

Apr, 2023

利用超定训练混合物的无监督神经语音分离

在混响条件下，提出了一种使用深度神经网络进行无监督语音分离的算法，通过多个麦克风同时收集到的语音混合信号计算线性滤波器，使得所有说话者的估计信号在所有麦克风中加起来等于混合信号。此算法需要使用超定训练混合物，并通过降低源内幅度分散的损失来解决频率置换问题。实验结果表明，该算法在混响条件下对两个说话者的分离效果较好。

May, 2023

单声道多说话人语音分离使用高效Transformer模型

鸡尾酒会问题是指从多个说话者的混合语音中分离或区分单个说话者变得困难的情境。本研究采用基于Transformer架构及其高效形式的语音分离模型，在LibriMix数据集上进行训练，该数据集包含多样的说话者语音。该模型能从混合音频输入中分离出两个不同的说话者源，实现了对语音分离模型计算复杂度的降低，并在性能与流行的语音分离模型之间取得了显著进展。该项目预计将为以计算效率为核心的语音分离领域的持续研究做出贡献。

Jul, 2023

远场语音识别的神经盲分离和发言者划分

本文提出了一种神经方法，用于远程语音识别（DSR），它能够在没有隔离信号的监督情况下，同时分离和解麦克风混合的语音，并没有未知数量的活跃说话者。

Jun, 2024