用于神经说话人分割的多类别交叉熵损失函数

Oct, 2023

用于神经说话人分割的多类别交叉熵损失函数

Powerset multi-class cross entropy loss for neural speaker diarization

Alexis Plaquet, Hervé Bredin

TL;DR本文通过对 9 个不同测评的广泛实验，展示了从多标签分类转换到功集多类分类的形式可以显著提高性能（特别是对于重叠语音）和对领域不匹配的鲁棒性，同时消除多标签分类的检测阈值超参数。

Abstract

Since its introduction in 2019, the whole end-to-end neural diarization (EEND) line of work has been addressing speaker diarization as a frame-wise multi-label classification problem with permutation-invariant tr

neural diarization speaker diarization frame-wise multi-label classification unsupervised clustering powerset multi-class classification

发现论文，激发创造

不嵌入说话者：长形式神经辨说的无嵌入方法

在本文中，我们提出了一种新的框架，将神经联合抄录模型（EEND）应用于长篇音频，既不需要单独的说话者嵌入，又能够在本地和全局上实现显著的相对 DER 降低以及处理时间的计算复杂性探索。

Jun, 2024

端到端的说话人分割，针对重叠感知的重分割

提出了一种基于端到端模型的说话人分割方法，直接进行说话人划分，通过多标签分类解决此任务，同时可用于语音活动检测和重叠语音检测，且在多个数据集上都有显著的表现提升。

Apr, 2021

无排列目标的端到端神经说话人分离

本文介绍了一种基于神经网络的说话人分离技术，将说话人分离问题转化为多标签分类问题，并提出了一个无排列的目标函数来直接最小化分离误差，从而能够更好地处理重叠语音，并通过真实录制的多说话者对话进行领域自适应，最终在模拟语音混合数据集上达到了较好的分离结果。

Sep, 2019

基于辅助网络的面向单词级端到端神经说话者日志线任务

我们提出了具有辅助网络的 Word 级端到端神经化登记（WEEND），这是一种多任务学习算法，能够在相同的神经架构中同时执行端到端自动语音识别（ASR）和说话人登记。实验结果表明，WEEND 在所有 2 个说话人短格式场景上优于基线系统，并且具有推广到 5 分钟音频长度的能力。尽管 3 个或更多说话人的对话更困难，但我们发现通过足够的领域内训练数据，WEEND 有潜力提供高质量的登记文本。

Sep, 2023

使用全局和局部引力对无限数量的发言人进行在线神经分离

本研究提出了一种新的音频说话人分离方法 --EEND-GLA, 它结合了声源吸引点和无监督聚类，能够在离线和在线推理中对未知数量的讲话人进行说话人分离，实验结果表明其分离效果良好。

Jun, 2022

基于 ASR 的端到端神经化分离

本文提出基于 Conformer 的端到端神经口头日记（EEND）模型，该模型利用从自动语音识别（ASR）模型导出的语音输入和特征。通过将 ASR 特征与声学特征相结合，采用新的自注意力机制来建立鲁棒的说话人表示，并使用多任务学习来最小化 ASR 特征的分类损失和日记化损失，将其应用于 Switchboard+SRE 数据集上的两个讲话人英语对话中，相对于基线，利用 ASR 特征的多任务学习最有效，在词汇位置信息下将 DER 降低了 20％。

Feb, 2022

TOLD：一种新颖的两阶段重叠感知演讲人分离框架

本文旨在通过两种新的端到端神经会话分离 (EEND) 模型来处理讲话者活动的重合和联系，分别为基于幂集编码的重合感知 EEND-OLA 和基于两阶段混合系统的 TOLD，结果表明相较于原始 EEND，EEND-OLA 在音频行话数据集上 DER 的表现提升了 14.39％，而使用 SOAP 则提供了另外 19.33％的相对提升，最终 TOLD 在该数据集上取得了新的最佳结果 (10.14％DER)。

Mar, 2023

在端到端神经语音分离中利用说话者嵌入识别双方讲话的情景

本研究通过将发言者信息嵌入到端到端系统中，提高了发言者辨识能力，并保持了处理语音重叠的优势，通过多种方法将这些嵌入与声学特征相结合。同时，对处理静默帧、提取发言者嵌入的窗口长度和变压器编码器尺寸进行了深入分析。在 CallHome 数据集上对双发言者分析任务进行了全面评估，结果表明相对于基准端到端模型，发现有了显著的降低对话错误率，相对提高了 10.78%。

Jul, 2024

基于编码器 - 解码器吸引子的未知数量说话者端到端分离

该论文提出了一种基于编码器 - 解码器的吸引因子计算方法，该方法可灵活地生成不同数量的吸引因子，用以支持不同数量的说话人，并利用传统的自我注意力端到端神经说话人分离网络（SA-EEND）来提取讲话嵌入序列和生成说话人活动，实验结果表明，相对于传统的基于聚类的说话人分离模型和端到端模型，该方法分别在模拟的双说话人条件和未知说话人数量的条件下都取得了更好的说话人分离性能。

May, 2020

重叠感知的端到端监督层次图聚类用于发言人分离

通过图神经网络的端到端监督分层聚类算法（E-SHARC）可以改善目前状态下的说话人辨别系统，特别是在重叠语音区域的预测上。

Jan, 2024