寻找适用于说话人分离的强嵌入提取器

Oct, 2022

寻找适用于说话人分离的强嵌入提取器

In search of strong embedding extractors for speaker diarisation

Jee-weon Jung, Hee-Soo Heo, Bong-Jin Lee, Jaesung Huh, Andrew Brown...

TL;DR通过生成更贴近对话场景的说话人验证评估协议和两种数据增强技术来解决说话人嵌入提取器在多说话人存在时的性能下降问题，实验证明这两种方法都是有效的。

Abstract

speaker embedding extractors (EEs), which map input audio to a speaker discriminant latent space, are of paramount importance in speaker diarisation. However, there are several challenges when adopting EEs for di

speaker embedding extractors speaker diarisation data augmentation techniques overlapped speech speaker change input

发现论文，激发创造

高分辨率说话人分离嵌入提取器

本文提出了一种新的嵌入提取器体系结构，称为高分辨率嵌入提取器（HEE），它从每个语音片段中提取多个高分辨率嵌入，每个密集的帧级嵌入可以代表一个说话者，多个说话者可以由每个段的不同帧级特征表示。通过在五个评估集上的实验，表明了所提出的 HEE 的至少 10% 的改进。

Nov, 2022

稀疏 LDA 转换的说话人嵌入在目标说话人提取中的应用

本文提出了一种基于简化说话人提示的目标说话人提取方法，通过在 SepFormer 模型中加入 X-vector、Xi-vector 和 LDA-transform 方法产生的新的说话人嵌入，显著提高了模型的性能。在 WSJ0-2mix 数据集上的实验结果表明，我们的方法的 SI-SDRi 可以达到 19.4 dB 和 PESQ 可以达到 3.78，比当前的 SOTA 模型有显著的改进，并提供了目前 WSJ0-2mix 最佳的 TSE 结果。

Jan, 2023

在端到端神经语音分离中利用说话者嵌入识别双方讲话的情景

本研究通过将发言者信息嵌入到端到端系统中，提高了发言者辨识能力，并保持了处理语音重叠的优势，通过多种方法将这些嵌入与声学特征相结合。同时，对处理静默帧、提取发言者嵌入的窗口长度和变压器编码器尺寸进行了深入分析。在 CallHome 数据集上对双发言者分析任务进行了全面评估，结果表明相对于基准端到端模型，发现有了显著的降低对话错误率，相对提高了 10.78%。

Jul, 2024

单通道语音混合中基于深度提取网络的目标说话人恢复

该研究提出了一种新的基于深度提取器网络的说话人感知源分离方法，它能够在高维空间构建提取器点以提取目标说话人的信息。实验结果表明该方法可以高效地从混合音频中恢复高质量的目标语音，相比基线深度吸引子模型，SDR 和 PESQ 都有 5.2% 和 6.6% 的相对改进，并且该方法可以很好地推广到多个干扰说话人的情况下。

Jul, 2018

基于编码器 - 解码器吸引子的未知数量说话者端到端分离

该论文提出了一种基于编码器 - 解码器的吸引因子计算方法，该方法可灵活地生成不同数量的吸引因子，用以支持不同数量的说话人，并利用传统的自我注意力端到端神经说话人分离网络（SA-EEND）来提取讲话嵌入序列和生成说话人活动，实验结果表明，相对于传统的基于聚类的说话人分离模型和端到端模型，该方法分别在模拟的双说话人条件和未知说话人数量的条件下都取得了更好的说话人分离性能。

May, 2020

使用 LSTM 进行说话者分离

本文介绍一种基于 d-vectors 的说话者辨识方法，将 LSTM-based 的 d-vector audio embeddings 与非参数聚类相结合，实现了最新的说话者辨识系统，与传统 i-vector 系统相比，取得了更好的结果。

Oct, 2017

走向真实场景的端到端演讲者分离

本文提出了一种吸引子模型的端到端系统，通过训练模拟数据集来适应于野外含有更多发言者的情况，并且使用注意力机制增强网络容量来识别更多的发言者吸引子。虽然这种模型只是基于音频的，但是在 AVA-AVD 基准数据集中取得了明显优于只有音频或音视频有关的基线模型的破纪录成果，将分离误差绝对值减少了 23.3%。

Nov, 2022

量化证明：关于注册发言者嵌入的忽略方面对目标发言者分离的影响

本文研究了说话人注册嵌入的几个重要但常被忽视的方面，包括常用的说话人识别嵌入的适用性、log-mel 滤波器组和自监督嵌入的介绍以及嵌入的跨数据集泛化能力；结果表明，log-mel 滤波器组嵌入在跨数据集评估中表现更佳，但这种特征过去被忽视，未来需要进行更好的上游特征研究。

Oct, 2022

端到端的说话人分割，针对重叠感知的重分割

提出了一种基于端到端模型的说话人分割方法，直接进行说话人划分，通过多标签分类解决此任务，同时可用于语音活动检测和重叠语音检测，且在多个数据集上都有显著的表现提升。

Apr, 2021

重叠感知的端到端监督层次图聚类用于发言人分离

通过图神经网络的端到端监督分层聚类算法（E-SHARC）可以改善目前状态下的说话人辨别系统，特别是在重叠语音区域的预测上。

Jan, 2024