SpEx: 多尺度时域说话人提取网络
本文提出了一种完整的时域说话人提取解决方案 SpEx+ ,通过绑定两个相同语音编码器网络的权重来消除时域与频域之间的不匹配,实验证明 SpEx+ 在不同和相同性别条件下,比现有的 SpEx 基准系统有 0.8dB 和 2.1dB 的 SDR 提高。
May, 2020
我们提出了 DiffSpEx,一种基于基于分数的生成建模的目标说话人提取方法,通过随机微分方程实现。 DiffSpEx 在复杂的短时傅里叶变换领域中部署连续时间的随机扩散过程,从目标说话人源开始并收敛到以源混合为中心的高斯分布。 对于逆时间过程,一个参数化的分数函数会被调整到一个目标说话人嵌入上,以从多个源的混合中提取目标说话人。我们使用 ECAPA-TDNN 目标说话人嵌入,并交替将分数函数调整到 SDE 时间嵌入和目标说话人嵌入上。我们利用 WSJ0-2mix 数据集展示了 DiffSpEx 的潜力,实现了 12.9 dB 的 SI-SDR 和 3.56 的 NISQA 得分。此外,我们还展示了将预训练的 DiffSpEx 模型微调到特定说话人能进一步提高性能,实现了目标说话人提取中的个性化。
Oct, 2023
该研究提出了一种新的基于深度提取器网络的说话人感知源分离方法,它能够在高维空间构建提取器点以提取目标说话人的信息。实验结果表明该方法可以高效地从混合音频中恢复高质量的目标语音,相比基线深度吸引子模型,SDR 和 PESQ 都有 5.2% 和 6.6% 的相对改进,并且该方法可以很好地推广到多个干扰说话人的情况下。
Jul, 2018
本文提出了一种统一的时频方法,在清洁和嘈杂的条件下进行说话者提取。该方法采用了 Siamese-Unet 结构,使用频率域和时间域表示,以及采用了规范化的频域损失,最终在实验结果上达到了比传统的说话者提取方法和盲源分离方法更好的效果。
Mar, 2022
本文提出 SpeakerBeam 算法实现对目标说话人的识别和提取,对同性别混合语音的语音分离效果不如期望,但在本文中提出的时间域、空间特征和辅助说话人识别方法使得提取效果得到增强并超过了 TasNet。
Jan, 2020
本文提出了一种包含视觉和自我学习语境线索的两阶段时域视觉 —— 语境扬声器提取网络 VCSE, 在 LRS3 数据库上表现比其他最先进的基线一致优秀
Oct, 2022
本文提出了一种基于简化说话人提示的目标说话人提取方法,通过在 SepFormer 模型中加入 X-vector、Xi-vector 和 LDA-transform 方法产生的新的说话人嵌入,显著提高了模型的性能。在 WSJ0-2mix 数据集上的实验结果表明,我们的方法的 SI-SDRi 可以达到 19.4 dB 和 PESQ 可以达到 3.78,比当前的 SOTA 模型有显著的改进,并提供了目前 WSJ0-2mix 最佳的 TSE 结果。
Jan, 2023
本研究提出基于多尺度解码器的高级多尺度语者分离系统,通过多尺度聚类初始化估计讲话人数和每个尺度的平均发言者表示向量,使用 1-D 卷积神经网络动态决定每个时间步长上每个尺度的重要性,抑制了时间分辨率和发言者表示保真度之间的平衡问题。该系统可以估计存在的说话人数和在 CALLHOME 和 AMI MixHeadset 数据集上实现了业界领先的性能,分别为 3.92% 和 1.05% 的对白错误率。
Mar, 2022
提出了 SpeakerBeam-FE 方法进行说话者分离,通过幅度和时间频谱近似损失来估计目标说话者的相位敏感掩模,使用串接框架来将说话者嵌入编码到掩模估计网络中,实验结果表明,相对于 SBF 基准线,在 SDR 和 PESQ 方面,所提出的方法分别取得了 70.4% 和 17.7% 的相对改进,对于不同和相同性别混合,所提出的方法分别获得了 69.1% 和 72.3% 的相对 SDR 改进。
Mar, 2019
本文介绍了一种新的时间域音视图架构,用于从单声道混合物中提取目标说话人,实验结果表明,相比于仅有声音的 TasNet 和频域音 - 视网络,我们的方法在两个和三个说话人的情况下分别可以提供 3dB + 和 4dB + 的信噪比改进。
Apr, 2019