使用旁路分离器进行多说话人重叠语音识别和说话人分离的统一建模

May, 2023

Unified Modeling of Multi-Talker Overlapped Speech Recognition and Diarization with a Sidecar Separator

Lingwei Meng, Jiawen Kang, Mingyu Cui, Haibin Wu, Xixin Wu...

TL;DR通过在单输出识别（ASR）模型中插入侧耳声分离器，结合说话人分离（diarization）任务，提出了一种能够同时定位多个讲话者的多讲话人重叠语音识别语音模型。

Abstract

multi-talker overlapped speech poses a significant challenge for speech recognition and diarization. Recent research indicated that these

发现论文，激发创造

本研究提出了一种基于 Sidecar 分离器的多说话人语音识别方法，旨在提高 ASR 模型在多说话人情况下的识别效果，实验结果显示该方法优于现有最先进水平。

Feb, 2023

该研究论文提出了一种新的模型，结合语音识别和说话人分离的任务，通过引入说话人标签和说话人掩码分支，实现了多说话人重叠语音的识别和说话人分离。实验证明了该方法在复杂的多说话人场景中有效地提高了说话人分离的准确性。

Dec, 2023

这篇论文提出了一个名为 SLIDAR（滑动窗口判别增强识别）的新颖框架，用于联合演讲者判别和自动语音识别，能够处理任意长度的输入和任意数量的说话人，通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入，并通过聚类说话人嵌入获得全局演讲者身份，实验证实了该方法在近距离和远场语音场景中的有效性。

Oct, 2023

我们介绍了一种新的基于语音分离引导的在线发言人分化方案，适用于持续变动的说话人数量的长时间会议录音。

Jan, 2024

本文提出了一种最先进的单声道多说话者端到端自动语音识别模型，通过利用单个注意力模块为每个分离的说话者和调度抽样进一步提高性能，实验表明该方法可以在分离重叠的语音和识别分离的流方面提高端到端模型的性能。

Nov, 2018

该论文提出了一种基于中间地带的方法来处理多说话者语音识别，该方法既利用了情感识别模块类似于模块化方法的显式语音分离技术，又将混合语音信息直接纳入 ASR 模块，以减轻语音分离器所产生的错误传播，并且通过结合个体说话者信息的层来交换跨说话者的上下文信息。

Jun, 2023

该论文提出了一种使用改进的序列化输出训练和轻量级适配器模块来解决在会议对话中经常出现的多说话者自动语音识别（ASR）问题的方法，实验结果表明该方法有效地将 USMs 转换为具有时间戳预测能力的强大的多语言多说话人 ASR 模型

May, 2023

本文提出了一种改进的模拟多说者重叠讲话的技术，该技术使用离散标记的序列来表示任意模式的语音重叠，从而使模型能够从实际对话中学习语音重叠模式，并在多个数据集上提高了单词错误率。

Oct, 2022

提出了一种基于端到端模型的说话人分割方法，直接进行说话人划分，通过多标签分类解决此任务，同时可用于语音活动检测和重叠语音检测，且在多个数据集上都有显著的表现提升。

Apr, 2021

对在多方会议场景下的口语识别（SA-ASR）中的发言人进行的比较研究中，通过三种不同的方法进行了评估。结果表明，引入单词级别的划分模型可以有效降低时戳对准错误。同时，采用目标发言人分离模块和 ASR 模块联合训练可以显著提高 SA-ASR 的性能。

Mar, 2022