SpEx: 多尺度时域说话人提取网络

Apr, 2020

SpEx: Multi-Scale Time Domain Speaker Extraction Network

Chenglin Xu, Wei Rao, Eng Siong Chng, Haizhou Li

TL;DR通过提出 SpEx 网络并采用多尺度嵌入系数，将多说话声音信号转换成特定发言人的声音信号，该网络在信号畸变比（SDR）、比例尺不变信号畸变比（SI-SDR）和语音质量评估（PESQ）等方面均有显著改进。

Abstract

speaker extraction aims to mimic humans' selective auditory attention by extracting a target speaker's voice from a multi-talker environment. It is common to perform the extraction in frequency-domain, and reconstruct the →

speaker extraction time-domain multi-task learning embedding coefficients speech quality

发现论文，激发创造

SpEx+: 一个完整的时域说话人提取网络

本文提出了一种完整的时域说话人提取解决方案 SpEx+ ，通过绑定两个相同语音编码器网络的权重来消除时域与频域之间的不匹配，实验证明 SpEx+ 在不同和相同性别条件下，比现有的 SpEx 基准系统有 0.8dB 和 2.1dB 的 SDR 提高。

May, 2020

条件扩散模型：目标说话者提取

我们提出了 DiffSpEx，一种基于基于分数的生成建模的目标说话人提取方法，通过随机微分方程实现。 DiffSpEx 在复杂的短时傅里叶变换领域中部署连续时间的随机扩散过程，从目标说话人源开始并收敛到以源混合为中心的高斯分布。对于逆时间过程，一个参数化的分数函数会被调整到一个目标说话人嵌入上，以从多个源的混合中提取目标说话人。我们使用 ECAPA-TDNN 目标说话人嵌入，并交替将分数函数调整到 SDE 时间嵌入和目标说话人嵌入上。我们利用 WSJ0-2mix 数据集展示了 DiffSpEx 的潜力，实现了 12.9 dB 的 SI-SDR 和 3.56 的 NISQA 得分。此外，我们还展示了将预训练的 DiffSpEx 模型微调到特定说话人能进一步提高性能，实现了目标说话人提取中的个性化。

Oct, 2023

单通道语音混合中基于深度提取网络的目标说话人恢复

该研究提出了一种新的基于深度提取器网络的说话人感知源分离方法，它能够在高维空间构建提取器点以提取目标说话人的信息。实验结果表明该方法可以高效地从混合音频中恢复高质量的目标语音，相比基线深度吸引子模型，SDR 和 PESQ 都有 5.2% 和 6.6% 的相对改进，并且该方法可以很好地推广到多个干扰说话人的情况下。

Jul, 2018

使用统一的时频 Siamese-Unet 提取单个麦克风扬声器

本文提出了一种统一的时频方法，在清洁和嘈杂的条件下进行说话者提取。该方法采用了 Siamese-Unet 结构，使用频率域和时间域表示，以及采用了规范化的频域损失，最终在实验结果上达到了比传统的说话者提取方法和盲源分离方法更好的效果。

Mar, 2022

利用时域 SpeakerBeam 改善目标语音提取的说话人识别能力

本文提出 SpeakerBeam 算法实现对目标说话人的识别和提取，对同性别混合语音的语音分离效果不如期望，但在本文中提出的时间域、空间特征和辅助说话人识别方法使得提取效果得到增强并超过了 TasNet。

Jan, 2020

VCSE: 时域视觉语境说话人提取网络

本文提出了一种包含视觉和自我学习语境线索的两阶段时域视觉 —— 语境扬声器提取网络 VCSE, 在 LRS3 数据库上表现比其他最先进的基线一致优秀

Oct, 2022

稀疏 LDA 转换的说话人嵌入在目标说话人提取中的应用

本文提出了一种基于简化说话人提示的目标说话人提取方法，通过在 SepFormer 模型中加入 X-vector、Xi-vector 和 LDA-transform 方法产生的新的说话人嵌入，显著提高了模型的性能。在 WSJ0-2mix 数据集上的实验结果表明，我们的方法的 SI-SDRi 可以达到 19.4 dB 和 PESQ 可以达到 3.78，比当前的 SOTA 模型有显著的改进，并提供了目前 WSJ0-2mix 最佳的 TSE 结果。

Jan, 2023

动态尺度加权多尺度说话人分离

本研究提出基于多尺度解码器的高级多尺度语者分离系统，通过多尺度聚类初始化估计讲话人数和每个尺度的平均发言者表示向量，使用 1-D 卷积神经网络动态决定每个时间步长上每个尺度的重要性，抑制了时间分辨率和发言者表示保真度之间的平衡问题。该系统可以估计存在的说话人数和在 CALLHOME 和 AMI MixHeadset 数据集上实现了业界领先的性能，分别为 3.92% 和 1.05% 的对白错误率。

Mar, 2022

利用幅度和时间谱逼近损失优化说话者提取神经网络

提出了 SpeakerBeam-FE 方法进行说话者分离，通过幅度和时间频谱近似损失来估计目标说话者的相位敏感掩模，使用串接框架来将说话者嵌入编码到掩模估计网络中，实验结果表明，相对于 SBF 基准线，在 SDR 和 PESQ 方面，所提出的方法分别取得了 70.4% 和 17.7% 的相对改进，对于不同和相同性别混合，所提出的方法分别获得了 69.1% 和 72.3% 的相对 SDR 改进。

Mar, 2019

时域音视频语音分离

本文介绍了一种新的时间域音视图架构，用于从单声道混合物中提取目标说话人，实验结果表明，相比于仅有声音的 TasNet 和频域音 - 视网络，我们的方法在两个和三个说话人的情况下分别可以提供 3dB + 和 4dB + 的信噪比改进。

Apr, 2019