端到端的说话人分割，针对重叠感知的重分割

Apr, 2021

端到端的说话人分割，针对重叠感知的重分割

End-to-end speaker segmentation for overlap-aware resegmentation

Hervé Bredin, Antoine Laurent

TL;DR提出了一种基于端到端模型的说话人分割方法，直接进行说话人划分，通过多标签分类解决此任务，同时可用于语音活动检测和重叠语音检测，且在多个数据集上都有显著的表现提升。

Abstract

speaker segmentation consists in partitioning a conversation between one or more speakers into speaker turns. Usually addressed as the late combination of three sub-tasks (voice activity detection, speaker change

speaker segmentation end-to-end model voice activity detection overlapped speech detection multi-label classification

发现论文，激发创造

TOLD：一种新颖的两阶段重叠感知演讲人分离框架

本文旨在通过两种新的端到端神经会话分离 (EEND) 模型来处理讲话者活动的重合和联系，分别为基于幂集编码的重合感知 EEND-OLA 和基于两阶段混合系统的 TOLD，结果表明相较于原始 EEND，EEND-OLA 在音频行话数据集上 DER 的表现提升了 14.39％，而使用 SOAP 则提供了另外 19.33％的相对提升，最终 TOLD 在该数据集上取得了新的最佳结果 (10.14％DER)。

Mar, 2023

会议在线发言人分化的语音分离指导

我们介绍了一种新的基于语音分离引导的在线发言人分化方案，适用于持续变动的说话人数量的长时间会议录音。

Jan, 2024

在端到端神经语音分离中利用说话者嵌入识别双方讲话的情景

本研究通过将发言者信息嵌入到端到端系统中，提高了发言者辨识能力，并保持了处理语音重叠的优势，通过多种方法将这些嵌入与声学特征相结合。同时，对处理静默帧、提取发言者嵌入的窗口长度和变压器编码器尺寸进行了深入分析。在 CallHome 数据集上对双发言者分析任务进行了全面评估，结果表明相对于基准端到端模型，发现有了显著的降低对话错误率，相对提高了 10.78%。

Jul, 2024

多说话人重叠语音识别的演讲者掩蔽变换器

该研究论文提出了一种新的模型，结合语音识别和说话人分离的任务，通过引入说话人标签和说话人掩码分支，实现了多说话人重叠语音的识别和说话人分离。实验证明了该方法在复杂的多说话人场景中有效地提高了说话人分离的准确性。

Dec, 2023

走向真实场景的端到端演讲者分离

本文提出了一种吸引子模型的端到端系统，通过训练模拟数据集来适应于野外含有更多发言者的情况，并且使用注意力机制增强网络容量来识别更多的发言者吸引子。虽然这种模型只是基于音频的，但是在 AVA-AVD 基准数据集中取得了明显优于只有音频或音视频有关的基线模型的破纪录成果，将分离误差绝对值减少了 23.3%。

Nov, 2022

基于 ASR 的端到端神经化分离

本文提出基于 Conformer 的端到端神经口头日记（EEND）模型，该模型利用从自动语音识别（ASR）模型导出的语音输入和特征。通过将 ASR 特征与声学特征相结合，采用新的自注意力机制来建立鲁棒的说话人表示，并使用多任务学习来最小化 ASR 特征的分类损失和日记化损失，将其应用于 Switchboard+SRE 数据集上的两个讲话人英语对话中，相对于基线，利用 ASR 特征的多任务学习最有效，在词汇位置信息下将 DER 降低了 20％。

Feb, 2022

重叠感知的端到端监督层次图聚类用于发言人分离

通过图神经网络的端到端监督分层聚类算法（E-SHARC）可以改善目前状态下的说话人辨别系统，特别是在重叠语音区域的预测上。

Jan, 2024

用于神经说话人分割的多类别交叉熵损失函数

本文通过对 9 个不同测评的广泛实验，展示了从多标签分类转换到功集多类分类的形式可以显著提高性能（特别是对于重叠语音）和对领域不匹配的鲁棒性，同时消除多标签分类的检测阈值超参数。

Oct, 2023

E2E Segmenter: 针对长形式 ASR 的联合分词和解码

使用端到端的自动语音识别模型代替传统的语音活动检测器 (VAD)，在处理长的音频片段时，不仅能够使用更好的声学特征进行分割决策，还可以使用文本解码得到的语义特征，从而有更好的性能表现。在 30 分钟内的真实世界音频实验中，相比于使用 VAD，我们展示了在最先进的 Conformer RNN-T 模型上 8.5% 的相对 WER 改进和 250 ms 的额外分割延迟减少。

Apr, 2022

基于辅助网络的面向单词级端到端神经说话者日志线任务

我们提出了具有辅助网络的 Word 级端到端神经化登记（WEEND），这是一种多任务学习算法，能够在相同的神经架构中同时执行端到端自动语音识别（ASR）和说话人登记。实验结果表明，WEEND 在所有 2 个说话人短格式场景上优于基线系统，并且具有推广到 5 分钟音频长度的能力。尽管 3 个或更多说话人的对话更困难，但我们发现通过足够的领域内训练数据，WEEND 有潜力提供高质量的登记文本。

Sep, 2023