基于深度吸引子网络的说话人无关语音分离

Jul, 2017

基于深度吸引子网络的说话人无关语音分离

Speaker-independent Speech Separation with Deep Attractor Network

Yi Luo, Zhuo Chen, Nima Mesgarani

TL;DR提出了一种新的深度学习框架来解决混合谱中时域 - 频域混淆的问题并有效恢复说话者语音，其中将混合信号的时频表示投影到高维嵌入空间，并为每个说话者创建一个参考点吸引器，并将说话者的嵌入向量强制聚集到其相应的吸引器点附近，该方法在 Wall Street Journal 数据集上表现出与其他最先进的深度学习方法相媲美甚至更好的性能。

Abstract

Despite the recent success of deep learning for many speech processing tasks, single-microphone, speaker-independent speech separation remains challenging for two main reasons. The first reason is the arbitrary o

deep learning speech separation neural network attractor point wall street journal dataset

发现论文，激发创造

深度吸引子网络用于单麦克风说话人分离

本研究提出了一种基于深度学习的语音分离框架，通过在高维嵌入空间中创建引子点，将混合物中的不同来源对应的时间 - 频率区间聚合在一起。该模型通过最小化嵌入的重建误差来优化。与之前的工作不同，本模型实现了端到端的培训，不依赖混合介质中源的数量，并在测试时间尝试了两种策略，K-means 和固定吸引子点，后者无需后处理即可实时实现。在华尔街日报数据集上评估了该系统并优于之前的最优方法 5.49％。

Nov, 2016

单通道语音混合中基于深度提取网络的目标说话人恢复

该研究提出了一种新的基于深度提取器网络的说话人感知源分离方法，它能够在高维空间构建提取器点以提取目标说话人的信息。实验结果表明该方法可以高效地从混合音频中恢复高质量的目标语音，相比基线深度吸引子模型，SDR 和 PESQ 都有 5.2% 和 6.6% 的相对改进，并且该方法可以很好地推广到多个干扰说话人的情况下。

Jul, 2018

使用深度聚类的单通道多说话者声音分离

本文使用基于深度学习的深度聚类方法及信号逼近技术，改进基线深度聚类算法，显著补偿了音频信号分离中的低信噪比问题，实现了在多说话人场景下的语音信号分离，通过自动语音识别实验，该算法在混响背景下将语音识别错误率从 89.1% 降至 30.8%，有效解决了鸡尾酒会效应问题。

Jul, 2016

深度聚类：用于分割和分离的判别嵌入

本文提出了一种称为 “深度聚类” 的深度学习框架，通过使用光谱图嵌入进行声源分离，从而实现类无关的信号分离，大大降低了领域分割成本，并且不依靠类别给出类标签，具有将不同源集合的潜力。

Aug, 2015

走向真实场景的端到端演讲者分离

本文提出了一种吸引子模型的端到端系统，通过训练模拟数据集来适应于野外含有更多发言者的情况，并且使用注意力机制增强网络容量来识别更多的发言者吸引子。虽然这种模型只是基于音频的，但是在 AVA-AVD 基准数据集中取得了明显优于只有音频或音视频有关的基线模型的破纪录成果，将分离误差绝对值减少了 23.3%。

Nov, 2022

基于编码器 - 解码器吸引子的未知数量说话者端到端分离

该论文提出了一种基于编码器 - 解码器的吸引因子计算方法，该方法可灵活地生成不同数量的吸引因子，用以支持不同数量的说话人，并利用传统的自我注意力端到端神经说话人分离网络（SA-EEND）来提取讲话嵌入序列和生成说话人活动，实验结果表明，相对于传统的基于聚类的说话人分离模型和端到端模型，该方法分别在模拟的双说话人条件和未知说话人数量的条件下都取得了更好的说话人分离性能。

May, 2020

时空神经滤波器：方向感知的端对端多通道目标语音分离

本文提出了一种时空神经滤波器，通过方向信息的辅助作用，从具有混响的多人语音混合物中直接估计目标语音波形，以提高目标和干扰源之间的时域、频域和空域可辨识度，并设计了一种全卷积自动编码器框架用于快速和端到端的语音分离处理。

Jan, 2020

VoiceFilter: 基于说话人条件的频谱掩码的定向语音分离

本文提出一个新颖的系统用于从多人信号中分离目标说话者的声音，并通过两个神经网络来训练：说话人识别网络和谱掩蔽网络。该系统可明显降低多人信号上的语音识别错误率，并在单人信号上最小限度地降低错误率。

Oct, 2018

不变语音识别中的解缠

本研究探讨了深度神经网络在处理时间依赖性信号方面的表现，结果显示语音模型会丢弃特定说话人的噪声信号，而保留与任务相关的语音和音素信息，并在后续层级中出现更高层次的概念表示，此外还展示了深度学习在不同时刻从输入中提取任务相关特征，以实现不变语音识别的能力。

Mar, 2020

深度音视频语音增强对话

本文提出了一种深度视听语音增强网络方法，借助于对应视频中的嘴唇信息，能够在多人同时说话的情境下，从语音信号中分离出个人的发言，该方法适用于训练时未涉及到的说话者，并在不受限制的环境下，展现了出色的定量和定性效果。

Apr, 2018