评估深度说话人分析的谱聚类鲁棒性

Mar, 2024

评估深度说话人分析的谱聚类鲁棒性

Assessing the Robustness of Spectral Clustering for Deep Speaker Diarization

Nikhil Raghav, Md Sahidullah

TL;DR对于说话人区分，聚类说话人嵌入是至关重要的，但它尚未得到与其他组件一样多的关注。此外，当开发和评估数据来自不同领域时，对于说话人区分在各种数据集上的鲁棒性尚未得到探究。为了弥补这一差距，本研究深入研究了用于同领域和跨领域说话人区分的谱聚类方法。我们在两个广泛使用的语料库 AMI 和 DIHARD 上进行了大量实验，揭示了在领域不匹配情况下的说话人区分性能趋势。我们观察到，两种不同领域条件之间的性能差异可以归因于谱聚类的作用。特别是，在保持其他模块不变的情况下，我们展示了最佳调参参数以及说话人数量估计差异的来源是由于不匹配引起的。这项研究为说话人区分研究开辟了几个未来方向。

Abstract

clustering speaker embeddings is crucial in speaker diarization but hasn't received as much focus as other components. Moreover, the robus

clustering speaker embeddings speaker diarization spectral clustering domain mismatch

发现论文，激发创造

深度聚类：用于分割和分离的判别嵌入

本文提出了一种称为 “深度聚类” 的深度学习框架，通过使用光谱图嵌入进行声源分离，从而实现类无关的信号分离，大大降低了领域分割成本，并且不依靠类别给出类标签，具有将不同源集合的潜力。

Aug, 2015

使用深度聚类的单通道多说话者声音分离

本文使用基于深度学习的深度聚类方法及信号逼近技术，改进基线深度聚类算法，显著补偿了音频信号分离中的低信噪比问题，实现了在多说话人场景下的语音信号分离，通过自动语音识别实验，该算法在混响背景下将语音识别错误率从 89.1% 降至 30.8%，有效解决了鸡尾酒会效应问题。

Jul, 2016

利用语义信息提升说话者映射：联合配对约束传播

本文提出了一种利用语言模型有效利用语义信息的基于聚类的说话人分离系统，首先通过语音理解模块提取说话人相关的语义信息，然后利用这些信息构建配对约束，最后通过将约束整合到说话人分离流程中来提高整个系统的性能，在公共数据集上的大量实验证明了我们提出方法在声学特征的说话人分离系统上的一致优越性。

Sep, 2023

使用双自编码器网络的深度谱聚类

本文提出了一种联合学习框架，通过使用双自编码器网络将输入嵌入到潜在空间中，利用相互信息估计从输入中提供更具区分性的信息，并应用深度谱聚类方法将潜在表示嵌入到特征空间中并聚类，证明该方法在基准数据集上显著优于现有的聚类方法。

Apr, 2019

基于 Bi-LSTM 评分和凝聚层次聚类 (AHC) 的说话人分离相似度测量

本文提出了一种基于双向 LSTM 网络的语音分割与边界检测方法，用于解决多个人同时说话时 PLDA 算法无法考虑语音结构，容易出错的问题，实验表明该方法在 ICSI 会议语音数据集上的 Diarization Error Rate 可降低至 34.80%。

May, 2022

SpectralNet：使用深度神经网络进行谱聚类

本篇论文提出了一种名为 SpectralNet 的深度学习方法，通过在大量的未标注数据上训练，将输入的数据转换为与其相连的图拉普拉斯矩阵的特征空间的向量，并成功地应用于谱聚类，实现了对谱聚类中可扩展性以及广义化转化的双重突破。

Jan, 2018

快照谱聚类 —— 一种生成深度聚类集合的零成本方法

本文探讨了如何通过使用深度学习技术和多视图融合的集成学习方法来改善聚类结果，提出了一种新的快照谱聚类集成方法（Snapshot Spectral Clustering），实验结果表明该方法有效地提高了聚类性能和减少了计算成本。

Jul, 2023

改进的谱聚类算法分析

本文探讨了基于谱算法的图分割技术，阐述了相关算法在数据分析中的应用，通过对图的一定假设条件，通过优化谱嵌入图算法的表现提供更好性能保证。

Dec, 2019

重叠感知的端到端监督层次图聚类用于发言人分离

通过图神经网络的端到端监督分层聚类算法（E-SHARC）可以改善目前状态下的说话人辨别系统，特别是在重叠语音区域的预测上。

Jan, 2024

混乱语音评估和识别的光谱 - 时间深度特征

本文研究基于 SVD 分解的深度学习算法，用于自动识别语音障碍人士的语音，并且使用该算法提高了基于语音识别的自适应技术在该领域中的性能。

Jan, 2022