多方会议中说话人归属的自动语音识别的比较研究

Mar, 2022

多方会议中说话人归属的自动语音识别的比较研究

A Comparative Study on Speaker-attributed Automatic Speech Recognition in Multi-party Meetings

Fan Yu, Zhihao Du, Shiliang Zhang, Yuxiao Lin, Lei Xie

TL;DR对在多方会议场景下的口语识别（SA-ASR）中的发言人进行的比较研究中，通过三种不同的方法进行了评估。结果表明，引入单词级别的划分模型可以有效降低时戳对准错误。同时，采用目标发言人分离模块和 ASR 模块联合训练可以显著提高 SA-ASR 的性能。

Abstract

In this paper, we conduct a comparative study on speaker-attributed automatic speech recognition (sa-asr) in the multi-party meeting scena

sa-asr multi-party meeting speaker-attribution diarization model asr

发现论文，激发创造

改进实际会议应用中的发言人指派的语音识别

优化使用演讲者归属自动语音识别（SA-ASR）系统在实际场景中，如 AMI 会议语料库，用于改进语音片段的演讲者分配的新颖研究，涉及语音活动检测（VAD）、发言者序列聚类（SD）和 SA-ASR 方面的流程。

Mar, 2024

使用令牌级别的说话人嵌入进行分配流式讲话者自动语音识别

提出了一种基于 token 级别序列化输出训练 (t-SOT) 的流式说话者归属性自动语音识别 (SA-ASR) 模型，该模型可以在多人同时说话时实现低延迟的 “谁说了什么” 的识别，并提出了一种基于编码 - 解码的说话者嵌入提取器，可以从非重叠语音和重叠语音中为每个识别的令牌估计说话者表示。

Mar, 2022

在线音视频会议转录技术进展

本研究论文介绍了一种使用麦克风阵列和 360 度摄像头生成会议演讲者注释转录的系统，该系统能够处理重叠性语音并使用连续语音分离方法解决该问题。同时，还通过融合脸部跟踪和识别、声源定位、演讲者识别及先前演讲者信息的在线音频视觉演讲者日记化方法，提供了一个名为 SRD 的会议转录框架，并使用 11 名与会者的会议录音的实验结果表明，连续语音分离方法相对于高度调整的波束成形技术可将字词错误率降低 16.1％。当有完整的与会者名单时，字词错误率与演讲者归属字词错误率之间的差异仅为 1.0％，表明字词与演讲者之间的关联准确无误。当 50% 的与会者对系统不知情时，差异略有增加，为 1.6%。

Dec, 2019

无预训练的端到端单声道多说话人 ASR 系统

本文提出了一种最先进的单声道多说话者端到端自动语音识别模型，通过利用单个注意力模块为每个分离的说话者和调度抽样进一步提高性能，实验表明该方法可以在分离重叠的语音和识别分离的流方面提高端到端模型的性能。

Nov, 2018

使用令牌级串行化输出训练的流式多说话人 ASR

本文提出了一种基于 token 级别序列化输出训练（t-SOT）的新型流式多说话人自动语音识别框架，该框架在 LibriSpeechMix 和 LibriCSS 数据集中显示出比以前的结果更高的单词错误率的优势。

Feb, 2022

VarArray meets t-SOT: 推进流式远场对话语音识别技术的最新进展

该论文提出了一种新的流式机器人语音识别框架，用于捕获具有任意几何结构的远程麦克风阵列捕获的多个讲话者的重叠语音，并提出了一种基于 VarArray 和 t-SOT 的新型 t-SOT-VA 框架，其结合了连续语音分离和多讲话者语音识别技术。

Sep, 2022

一种统一的模型？走向端到端的联合说话人分离与语音识别

这篇论文提出了一个名为 SLIDAR（滑动窗口判别增强识别）的新颖框架，用于联合演讲者判别和自动语音识别，能够处理任意长度的输入和任意数量的说话人，通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入，并通过聚类说话人嵌入获得全局演讲者身份，实验证实了该方法在近距离和远场语音场景中的有效性。

Oct, 2023

航空交通管制中的联合与顺序发言者 - 角色检测及自动语音识别

利用空中交通管制数据进行自然语言处理需要进行预处理步骤，我们提出了一种基于 Transformer 的联合语音识别（ASR）和说话人分离（SRD）系统，比较了该系统与传统方法在多个 ATC 数据集上的性能，研究显示了何种情况下该联合系统能够胜过传统方法以及何种情况下其他架构更可取，同时我们评估了声学和词汇差异对所有架构的影响并展示了如何克服它们。

Jun, 2024

BA-SOT: 面向多说话人语音识别的边界感知序列化输出训练

该论文提出了一种基于边界的序列化输出训练（BA-SOT）模型，通过显式地将边界知识纳入解码器，结合语音识别的多个发言者和发言者变化预测，及通过引入二阶段连接时序分类（CTC）策略的令牌级 SOT CTC 来恢复时间上下文信息，并引入了针对发言者变化预测精度的话语依存的字符错误率（UD-CER）。BA-SOT 模型在 CER / UD-CER 方面均优于原始 SOT 模型，并且可以通过预训练的 ASR 模型进行 BA-SOT 模型初始化。

May, 2023

端到端联合识别非目标发言人与目标发言人的自动语音识别

本文提出一种新颖的自动语音识别系统，能够在多人重叠说话的情况下转录出单个说话者的发言，同时识别他们是目标还是非目标说话者。

Jun, 2023