本文提出了一种新的嵌入提取器体系结构,称为高分辨率嵌入提取器(HEE),它从每个语音片段中提取多个高分辨率嵌入,每个密集的帧级嵌入可以代表一个说话者,多个说话者可以由每个段的不同帧级特征表示。通过在五个评估集上的实验,表明了所提出的 HEE 的至少 10% 的改进。
Nov, 2022
本文提出了一种基于简化说话人提示的目标说话人提取方法,通过在 SepFormer 模型中加入 X-vector、Xi-vector 和 LDA-transform 方法产生的新的说话人嵌入,显著提高了模型的性能。在 WSJ0-2mix 数据集上的实验结果表明,我们的方法的 SI-SDRi 可以达到 19.4 dB 和 PESQ 可以达到 3.78,比当前的 SOTA 模型有显著的改进,并提供了目前 WSJ0-2mix 最佳的 TSE 结果。
Jan, 2023
本研究通过将发言者信息嵌入到端到端系统中,提高了发言者辨识能力,并保持了处理语音重叠的优势,通过多种方法将这些嵌入与声学特征相结合。同时,对处理静默帧、提取发言者嵌入的窗口长度和变压器编码器尺寸进行了深入分析。在 CallHome 数据集上对双发言者分析任务进行了全面评估,结果表明相对于基准端到端模型,发现有了显著的降低对话错误率,相对提高了 10.78%。
Jul, 2024
该研究提出了一种新的基于深度提取器网络的说话人感知源分离方法,它能够在高维空间构建提取器点以提取目标说话人的信息。实验结果表明该方法可以高效地从混合音频中恢复高质量的目标语音,相比基线深度吸引子模型,SDR 和 PESQ 都有 5.2% 和 6.6% 的相对改进,并且该方法可以很好地推广到多个干扰说话人的情况下。
Jul, 2018
该论文提出了一种基于编码器 - 解码器的吸引因子计算方法,该方法可灵活地生成不同数量的吸引因子,用以支持不同数量的说话人,并利用传统的自我注意力端到端神经说话人分离网络(SA-EEND)来提取讲话嵌入序列和生成说话人活动,实验结果表明,相对于传统的基于聚类的说话人分离模型和端到端模型,该方法分别在模拟的双说话人条件和未知说话人数量的条件下都取得了更好的说话人分离性能。
May, 2020
本文介绍一种基于 d-vectors 的说话者辨识方法,将 LSTM-based 的 d-vector audio embeddings 与非参数聚类相结合,实现了最新的说话者辨识系统,与传统 i-vector 系统相比,取得了更好的结果。
Oct, 2017
本文提出了一种吸引子模型的端到端系统,通过训练模拟数据集来适应于野外含有更多发言者的情况,并且使用注意力机制增强网络容量来识别更多的发言者吸引子。虽然这种模型只是基于音频的,但是在 AVA-AVD 基准数据集中取得了明显优于只有音频或音视频有关的基线模型的破纪录成果,将分离误差绝对值减少了 23.3%。
本文研究了说话人注册嵌入的几个重要但常被忽视的方面,包括常用的说话人识别嵌入的适用性、log-mel 滤波器组和自监督嵌入的介绍以及嵌入的跨数据集泛化能力;结果表明,log-mel 滤波器组嵌入在跨数据集评估中表现更佳,但这种特征过去被忽视,未来需要进行更好的上游特征研究。
Oct, 2022
提出了一种基于端到端模型的说话人分割方法,直接进行说话人划分,通过多标签分类解决此任务,同时可用于语音活动检测和重叠语音检测,且在多个数据集上都有显著的表现提升。
Apr, 2021
通过图神经网络的端到端监督分层聚类算法(E-SHARC)可以改善目前状态下的说话人辨别系统,特别是在重叠语音区域的预测上。
Jan, 2024