未知数量多方讲话者的声音分离
本文提出了逐句级别的置换不变训练(uPIT)技术,利用循环神经网络实现了多说话人语音分离,无需事先了解信号时长、说话人数量、身份和性别,且模型具有很好的泛化性能,在实验中表现优异。
Mar, 2017
提出了一种新的深度学习框架来解决混合谱中时域-频域混淆的问题并有效恢复说话者语音,其中将混合信号的时频表示投影到高维嵌入空间,并为每个说话者创建一个参考点吸引器,并将说话者的嵌入向量强制聚集到其相应的吸引器点附近,该方法在 Wall Street Journal 数据集上表现出与其他最先进的深度学习方法相媲美甚至更好的性能。
Jul, 2017
本研究从深度学习和计算听觉场景分析(CASA)的角度来处理与说话者无关的单声道扬声器分离问题。研究中,我们将多扬声器分离任务分解为同时分组和顺序分组两个阶段,并使用神经网络实现这两个阶段的分离。实验表明,这种方法在小型模型的情况下取得了最先进的结果。
Apr, 2019
该研究提出了一种基于深度神经网络的单通道语音分离方法,该方法通过迭代估计进行不同说话人的音频信号分离,并通过互信息准则进行测试样本的迭代次数确定,实验结果表明该方法在单通道语音分离的2, 3, 5和10个说话人的情况下均优于现有的最先进模型。
May, 2022
在这篇论文中,我们提出了两种演讲者感知设计来改进现有的演讲者分离解决方案,第一种模型是演讲者调节网络,它集成语音样本来生成个性化的演讲者条件,从而为分离模块提供了有信息的指导来产生良好的分离结果;第二种设计旨在减少分离语音中的非目标语音,我们提出了消极距离来惩罚通道输出中任何非目标语音的出现,并提出积极距离将分离语音驱向干净的目标语音,我们探索了加权和和三元组等两种不同的设置来集成这两个距离,形成组合辅助损失函数用于分离网络,实验结果表明我们提出的模型的有效性。
Oct, 2022
本文中我们提出了基于深度神经网络和循环神经网络的空间选择性滤波器(SSF),在多扬声器多声道分离任务中,可以从混合信号中提取出特定说话者的声音信息,并与直接分离方法进行了比较。结果表明,SSF具有更好的空间信息利用和泛化能力。
Apr, 2023
在混响条件下,提出了一种使用深度神经网络进行无监督语音分离的算法,通过多个麦克风同时收集到的语音混合信号计算线性滤波器,使得所有说话者的估计信号在所有麦克风中加起来等于混合信号。此算法需要使用超定训练混合物,并通过降低源内幅度分散的损失来解决频率置换问题。实验结果表明,该算法在混响条件下对两个说话者的分离效果较好。
May, 2023
鸡尾酒会问题是指从多个说话者的混合语音中分离或区分单个说话者变得困难的情境。本研究采用基于Transformer架构及其高效形式的语音分离模型,在LibriMix数据集上进行训练,该数据集包含多样的说话者语音。该模型能从混合音频输入中分离出两个不同的说话者源,实现了对语音分离模型计算复杂度的降低,并在性能与流行的语音分离模型之间取得了显著进展。该项目预计将为以计算效率为核心的语音分离领域的持续研究做出贡献。
Jul, 2023