基于编码器 - 解码器吸引子的未知数量说话者端到端分离

May, 2020

基于编码器 - 解码器吸引子的未知数量说话者端到端分离

End-to-End Speaker Diarization for an Unknown Number of Speakers with Encoder-Decoder Based Attractors

Shota Horiguchi, Yusuke Fujita, Shinji Watanabe, Yawen Xue, Kenji Nagamatsu

TL;DR该论文提出了一种基于编码器 - 解码器的吸引因子计算方法，该方法可灵活地生成不同数量的吸引因子，用以支持不同数量的说话人，并利用传统的自我注意力端到端神经说话人分离网络（SA-EEND）来提取讲话嵌入序列和生成说话人活动，实验结果表明，相对于传统的基于聚类的说话人分离模型和端到端模型，该方法分别在模拟的双说话人条件和未知说话人数量的条件下都取得了更好的说话人分离性能。

Abstract

end-to-end speaker diarization for an unknown number of speakers is addressed in this paper. Recently proposed end-to-end speaker diarization outperformed conventional clustering-based speaker diarization, but it

end-to-end speaker diarization encoder-decoder attractor calculation self-attentive neural network

发现论文，激发创造

走向真实场景的端到端演讲者分离

本文提出了一种吸引子模型的端到端系统，通过训练模拟数据集来适应于野外含有更多发言者的情况，并且使用注意力机制增强网络容量来识别更多的发言者吸引子。虽然这种模型只是基于音频的，但是在 AVA-AVD 基准数据集中取得了明显优于只有音频或音视频有关的基线模型的破纪录成果，将分离误差绝对值减少了 23.3%。

Nov, 2022

使用全局和局部引力对无限数量的发言人进行在线神经分离

本研究提出了一种新的音频说话人分离方法 --EEND-GLA, 它结合了声源吸引点和无监督聚类，能够在离线和在线推理中对未知数量的讲话人进行说话人分离，实验结果表明其分离效果良好。

Jun, 2022

不嵌入说话者：长形式神经辨说的无嵌入方法

在本文中，我们提出了一种新的框架，将神经联合抄录模型（EEND）应用于长篇音频，既不需要单独的说话者嵌入，又能够在本地和全局上实现显著的相对 DER 降低以及处理时间的计算复杂性探索。

Jun, 2024

基于 Transformer 的目标说话人语音活动检测及其与端到端神经分离的集成

本文提出了使用变长输入张量的基于 Transformer 的目标说话人语音活动检测（TS-VAD）的说话人分离模型。Transformer 层被应用于说话者维度，以使模型输出对提供给 TS-VAD 模型的说话者资料的顺序不敏感。同时，时间方面的连续层也被加入其中，以便捕捉输入语音信号的时间和跨说话者之间的相关性。实验结果显示，使用跨说话者建模的 Transformer 能够将 TS-VAD 的错误率降低 11.3％，在 VoxConverse 数据集上取得 4.57％的最新最佳效果；也将 SOTA DER 减少了 6.9％。

Aug, 2022

在端到端神经语音分离中利用说话者嵌入识别双方讲话的情景

本研究通过将发言者信息嵌入到端到端系统中，提高了发言者辨识能力，并保持了处理语音重叠的优势，通过多种方法将这些嵌入与声学特征相结合。同时，对处理静默帧、提取发言者嵌入的窗口长度和变压器编码器尺寸进行了深入分析。在 CallHome 数据集上对双发言者分析任务进行了全面评估，结果表明相对于基准端到端模型，发现有了显著的降低对话错误率，相对提高了 10.78%。

Jul, 2024

基于深度吸引子网络的说话人无关语音分离

提出了一种新的深度学习框架来解决混合谱中时域 - 频域混淆的问题并有效恢复说话者语音，其中将混合信号的时频表示投影到高维嵌入空间，并为每个说话者创建一个参考点吸引器，并将说话者的嵌入向量强制聚集到其相应的吸引器点附近，该方法在 Wall Street Journal 数据集上表现出与其他最先进的深度学习方法相媲美甚至更好的性能。

Jul, 2017

基于辅助网络的面向单词级端到端神经说话者日志线任务

我们提出了具有辅助网络的 Word 级端到端神经化登记（WEEND），这是一种多任务学习算法，能够在相同的神经架构中同时执行端到端自动语音识别（ASR）和说话人登记。实验结果表明，WEEND 在所有 2 个说话人短格式场景上优于基线系统，并且具有推广到 5 分钟音频长度的能力。尽管 3 个或更多说话人的对话更困难，但我们发现通过足够的领域内训练数据，WEEND 有潜力提供高质量的登记文本。

Sep, 2023

一种统一的模型？走向端到端的联合说话人分离与语音识别

这篇论文提出了一个名为 SLIDAR（滑动窗口判别增强识别）的新颖框架，用于联合演讲者判别和自动语音识别，能够处理任意长度的输入和任意数量的说话人，通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入，并通过聚类说话人嵌入获得全局演讲者身份，实验证实了该方法在近距离和远场语音场景中的有效性。

Oct, 2023

深度吸引子网络用于单麦克风说话人分离

本研究提出了一种基于深度学习的语音分离框架，通过在高维嵌入空间中创建引子点，将混合物中的不同来源对应的时间 - 频率区间聚合在一起。该模型通过最小化嵌入的重建误差来优化。与之前的工作不同，本模型实现了端到端的培训，不依赖混合介质中源的数量，并在测试时间尝试了两种策略，K-means 和固定吸引子点，后者无需后处理即可实时实现。在华尔街日报数据集上评估了该系统并优于之前的最优方法 5.49％。

Nov, 2016

端到端的说话人分割，针对重叠感知的重分割

提出了一种基于端到端模型的说话人分割方法，直接进行说话人划分，通过多标签分类解决此任务，同时可用于语音活动检测和重叠语音检测，且在多个数据集上都有显著的表现提升。

Apr, 2021