单通道语音混合中基于深度提取网络的目标说话人恢复

Jul, 2018

单通道语音混合中基于深度提取网络的目标说话人恢复

Deep Extractor Network for Target Speaker Recovery From Single Channel Speech Mixtures

Jun Wang, Jie Chen, Dan Su, Lianwu Chen, Meng Yu...

TL;DR该研究提出了一种新的基于深度提取器网络的说话人感知源分离方法，它能够在高维空间构建提取器点以提取目标说话人的信息。实验结果表明该方法可以高效地从混合音频中恢复高质量的目标语音，相比基线深度吸引子模型，SDR 和 PESQ 都有 5.2% 和 6.6% 的相对改进，并且该方法可以很好地推广到多个干扰说话人的情况下。

Abstract

speaker-aware source separation methods are promising workarounds for major difficulties such as arbitrary source permutation and unknown number of sources. However, it remains challenging to achieve satisfying performance provided a very short available target speaker utterance (ancho

speaker-aware source separation deep extractor network end-to-end training short utterance interfering speaker

发现论文，激发创造

深度吸引子网络用于单麦克风说话人分离

本研究提出了一种基于深度学习的语音分离框架，通过在高维嵌入空间中创建引子点，将混合物中的不同来源对应的时间 - 频率区间聚合在一起。该模型通过最小化嵌入的重建误差来优化。与之前的工作不同，本模型实现了端到端的培训，不依赖混合介质中源的数量，并在测试时间尝试了两种策略，K-means 和固定吸引子点，后者无需后处理即可实时实现。在华尔街日报数据集上评估了该系统并优于之前的最优方法 5.49％。

Nov, 2016

基于深度吸引子网络的说话人无关语音分离

提出了一种新的深度学习框架来解决混合谱中时域 - 频域混淆的问题并有效恢复说话者语音，其中将混合信号的时频表示投影到高维嵌入空间，并为每个说话者创建一个参考点吸引器，并将说话者的嵌入向量强制聚集到其相应的吸引器点附近，该方法在 Wall Street Journal 数据集上表现出与其他最先进的深度学习方法相媲美甚至更好的性能。

Jul, 2017

利用时域 SpeakerBeam 改善目标语音提取的说话人识别能力

本文提出 SpeakerBeam 算法实现对目标说话人的识别和提取，对同性别混合语音的语音分离效果不如期望，但在本文中提出的时间域、空间特征和辅助说话人识别方法使得提取效果得到增强并超过了 TasNet。

Jan, 2020

SpEx: 多尺度时域说话人提取网络

通过提出 SpEx 网络并采用多尺度嵌入系数，将多说话声音信号转换成特定发言人的声音信号，该网络在信号畸变比（SDR）、比例尺不变信号畸变比（SI-SDR）和语音质量评估（PESQ）等方面均有显著改进。

Apr, 2020

稀疏 LDA 转换的说话人嵌入在目标说话人提取中的应用

本文提出了一种基于简化说话人提示的目标说话人提取方法，通过在 SepFormer 模型中加入 X-vector、Xi-vector 和 LDA-transform 方法产生的新的说话人嵌入，显著提高了模型的性能。在 WSJ0-2mix 数据集上的实验结果表明，我们的方法的 SI-SDRi 可以达到 19.4 dB 和 PESQ 可以达到 3.78，比当前的 SOTA 模型有显著的改进，并提供了目前 WSJ0-2mix 最佳的 TSE 结果。

Jan, 2023

Deep Speaker: 一种端到端的神经说话人嵌入系统

Deep Speaker 是一种神经说话人嵌入系统，可以将话语映射到一个超球上，在此球上，通过余弦相似度来度量说话人的相似性。该系统通过采用 ResCNN 和 GRU 架构提取声学特征，然后通过平均池化生成话语级别的说话人嵌入，并使用基于余弦相似度的三元组损失进行训练。实验表明，Deep Speaker 优于基于 DNN 的 i 矢量基线，在三个不同数据集上表现出色，还表明适应普通话训练的模型可以提高对英语说话人的识别精度。

May, 2017

深度音视频语音增强对话

本文提出了一种深度视听语音增强网络方法，借助于对应视频中的嘴唇信息，能够在多人同时说话的情境下，从语音信号中分离出个人的发言，该方法适用于训练时未涉及到的说话者，并在不受限制的环境下，展现了出色的定量和定性效果。

Apr, 2018

寻找适用于说话人分离的强嵌入提取器

通过生成更贴近对话场景的说话人验证评估协议和两种数据增强技术来解决说话人嵌入提取器在多说话人存在时的性能下降问题，实验证明这两种方法都是有效的。

Oct, 2022

自监督解缠结表示学习用于稳健目标语音提取

通过自监督解缠的表示学习方法，该论文提出了一种两阶段的方法，利用参考语音编码网络和全局信息解缠网络逐步解开说话者身份信息与其他无关因素的联系，从而有效地引导语音提取网络并降低说话者混淆的可能性。此外，引入自适应调制 Transformer 以确保混合信号的声学表示不受说话者嵌入的影响，提供自然且高效的指导。实验结果验证了该方法的有效性。

Dec, 2023

使用深度聚类的单通道多说话者声音分离

本文使用基于深度学习的深度聚类方法及信号逼近技术，改进基线深度聚类算法，显著补偿了音频信号分离中的低信噪比问题，实现了在多说话人场景下的语音信号分离，通过自动语音识别实验，该算法在混响背景下将语音识别错误率从 89.1% 降至 30.8%，有效解决了鸡尾酒会效应问题。

Jul, 2016