利用时域 SpeakerBeam 改善目标语音提取的说话人识别能力

Jan, 2020

利用时域 SpeakerBeam 改善目标语音提取的说话人识别能力

Improving speaker discrimination of target speech extraction with time-domain SpeakerBeam

Marc Delcroix, Tsubasa Ochiai, Katerina Zmolikova, Keisuke Kinoshita, Naohiro Tawara...

TL;DR本文提出 SpeakerBeam 算法实现对目标说话人的识别和提取，对同性别混合语音的语音分离效果不如期望，但在本文中提出的时间域、空间特征和辅助说话人识别方法使得提取效果得到增强并超过了 TasNet。

Abstract

target speech extraction, which extracts a single target source in a mixture given clues about the target speaker, has attracted increasing attention. We have recently proposed speakerbeam, which exploits an adap

target speech extraction speakerbeam neural network speaker discrimination same-gender mixtures

发现论文，激发创造

增强神经波束形成器结合空间信息用于目标语音提取

本文提出了一种利用空间信息增强神经波束形成器性能的目标语音提取网络，该网络采用 UNet-TCN 结构模拟输入特征，并通过引入多头交叉注意力机制来利用阵列接收到的空间信息，实现了更合理的目标掩蔽估计网络和基于空间信息的交叉注意力机制，有效提高语音分离性能。

Jun, 2023

单通道语音混合中基于深度提取网络的目标说话人恢复

该研究提出了一种新的基于深度提取器网络的说话人感知源分离方法，它能够在高维空间构建提取器点以提取目标说话人的信息。实验结果表明该方法可以高效地从混合音频中恢复高质量的目标语音，相比基线深度吸引子模型，SDR 和 PESQ 都有 5.2% 和 6.6% 的相对改进，并且该方法可以很好地推广到多个干扰说话人的情况下。

Jul, 2018

时域音视频语音分离

本文介绍了一种新的时间域音视图架构，用于从单声道混合物中提取目标说话人，实验结果表明，相比于仅有声音的 TasNet 和频域音 - 视网络，我们的方法在两个和三个说话人的情况下分别可以提供 3dB + 和 4dB + 的信噪比改进。

Apr, 2019

时空神经滤波器：方向感知的端对端多通道目标语音分离

本文提出了一种时空神经滤波器，通过方向信息的辅助作用，从具有混响的多人语音混合物中直接估计目标语音波形，以提高目标和干扰源之间的时域、频域和空域可辨识度，并设计了一种全卷积自动编码器框架用于快速和端到端的语音分离处理。

Jan, 2020

VoiceFilter: 基于说话人条件的频谱掩码的定向语音分离

本文提出一个新颖的系统用于从多人信号中分离目标说话者的声音，并通过两个神经网络来训练：说话人识别网络和谱掩蔽网络。该系统可明显降低多人信号上的语音识别错误率，并在单人信号上最小限度地降低错误率。

Oct, 2018

稀疏 LDA 转换的说话人嵌入在目标说话人提取中的应用

本文提出了一种基于简化说话人提示的目标说话人提取方法，通过在 SepFormer 模型中加入 X-vector、Xi-vector 和 LDA-transform 方法产生的新的说话人嵌入，显著提高了模型的性能。在 WSJ0-2mix 数据集上的实验结果表明，我们的方法的 SI-SDRi 可以达到 19.4 dB 和 PESQ 可以达到 3.78，比当前的 SOTA 模型有显著的改进，并提供了目前 WSJ0-2mix 最佳的 TSE 结果。

Jan, 2023

多模态多通道目标语音分离

通过利用目标说话者的空间位置、声音特征和唇部运动，本研究提出了一种通用的多模态框架来实现目标语音分离，并探讨了多模态联合建模的融合方法。通过实验验证，该方法在真实情况下的强鲁棒性表现显著优于单模和双模语音分离方法，同时可支持实时处理。

Mar, 2020

SpEx+: 一个完整的时域说话人提取网络

本文提出了一种完整的时域说话人提取解决方案 SpEx+ ，通过绑定两个相同语音编码器网络的权重来消除时域与频域之间的不匹配，实验证明 SpEx+ 在不同和相同性别条件下，比现有的 SpEx 基准系统有 0.8dB 和 2.1dB 的 SDR 提高。

May, 2020

SpEx: 多尺度时域说话人提取网络

通过提出 SpEx 网络并采用多尺度嵌入系数，将多说话声音信号转换成特定发言人的声音信号，该网络在信号畸变比（SDR）、比例尺不变信号畸变比（SI-SDR）和语音质量评估（PESQ）等方面均有显著改进。

Apr, 2020

实时双耳语音分离并保留空间提示

本文提出了一种基于 TasNet 的多输入多输出的语音分离算法，该算法能够保留声源的空间信息，实现实时修改声学场景，并在不同声学场景中显著改善分离性能并保持位置感知。

Feb, 2020