BA-SOT: 面向多说话人语音识别的边界感知序列化输出训练

May, 2023

BA-SOT: 面向多说话人语音识别的边界感知序列化输出训练

BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR

Yuhao Liang, Fan Yu, Yangze Li, Pengcheng Guo, Shiliang Zhang...

TL;DR该论文提出了一种基于边界的序列化输出训练（BA-SOT）模型，通过显式地将边界知识纳入解码器，结合语音识别的多个发言者和发言者变化预测，及通过引入二阶段连接时序分类（CTC）策略的令牌级 SOT CTC 来恢复时间上下文信息，并引入了针对发言者变化预测精度的话语依存的字符错误率（UD-CER）。BA-SOT 模型在 CER / UD-CER 方面均优于原始 SOT 模型，并且可以通过预训练的 ASR 模型进行 BA-SOT 模型初始化。

Abstract

The recently proposed serialized output training (SOT) simplifies multi-talker automatic speech recognition (ASR) by generating speaker transcriptions separated by a special token. However, frequent speaker changes can make →

serialized output training speaker change prediction connectionist temporal classification boundary constraint loss utterance-dependent character error rate

发现论文，激发创造

使用令牌级串行化输出训练的流式多说话人 ASR

本文提出了一种基于 token 级别序列化输出训练（t-SOT）的新型流式多说话人自动语音识别框架，该框架在 LibriSpeechMix 和 LibriCSS 数据集中显示出比以前的结果更高的单词错误率的优势。

Feb, 2022

使用令牌级别的说话人嵌入进行分配流式讲话者自动语音识别

提出了一种基于 token 级别序列化输出训练 (t-SOT) 的流式说话者归属性自动语音识别 (SA-ASR) 模型，该模型可以在多人同时说话时实现低延迟的 “谁说了什么” 的识别，并提出了一种基于编码 - 解码的说话者嵌入提取器，可以从非重叠语音和重叠语音中为每个识别的令牌估计说话者表示。

Mar, 2022

多方会议中说话人归属的自动语音识别的比较研究

对在多方会议场景下的口语识别（SA-ASR）中的发言人进行的比较研究中，通过三种不同的方法进行了评估。结果表明，引入单词级别的划分模型可以有效降低时戳对准错误。同时，采用目标发言人分离模块和 ASR 模块联合训练可以显著提高 SA-ASR 的性能。

Mar, 2022

VarArray meets t-SOT: 推进流式远场对话语音识别技术的最新进展

该论文提出了一种新的流式机器人语音识别框架，用于捕获具有任意几何结构的远程麦克风阵列捕获的多个讲话者的重叠语音，并提出了一种基于 VarArray 和 t-SOT 的新型 t-SOT-VA 框架，其结合了连续语音分离和多讲话者语音识别技术。

Sep, 2022

利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练

该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer，并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成，其平均 ASR 延迟为 1 秒，ST 延迟为 1.3 秒，在多语言情况下优化了输出质量表现。

Jul, 2023

从有缺陷的数据中学习：弱监督的自动语音识别

使用 Omni-temporal Classification（OTC）训练自动语音识别（ASR）模型，可以有效地学习语音文本对齐并适应训练文本中的错误，从而避免在包含高达 70% 错误的文本情况下出现性能下降，与 CTC 模型完全失败的情况不同。

Sep, 2023

说话人感知语音转换器

本研究利用 Speech-Transformer (SST) 研究 E2E 模型的说话人感知训练，提出了一个 Speaker-Aware Speech-Transformer (SAST) 模型，在静态的说话人知识块基础上生成加权的说话人嵌入向量，成功地将训练说话人的因素规范化，相较于独立于某个特定训练说话人的 baseline 模型，SAST 取得了相对 6.5% 的 CER 减少。

Jan, 2020

跨说话人编码网络用于多说话者语音识别

这项工作提出了一个跨说话人编码（Cross-Speaker Encoding，CSE）网络，将单输入多输出（SIMO）模型的局限性通过集成串行输出训练（SOT）的基于注意力的编码器 - 解码器架构的单输入单输出（SISO）模型来解决，首次尝试将 SIMO 和 SISO 整合进多说话人语音识别中，实验结果表明 CSE-SOT 模型在 LibrispeechMix 数据集上比 SOT 模型的词错误率（WER）平均降低 10％，在高重叠语音上降低 16％。

Jan, 2024

针对基于检索的聊天机器人中的多轮响应选择的说话人感知 BERT

本文研究了如何使用预训练语言模型解决检索式聊天机器人中的多轮响应选择问题，提出了一种名为 SA-BERT 的新模型，包括说话人感知和解缠策略，并通过领域自适应使性能达到最新的水平。

Apr, 2020

端到端单通道说话者转换感知的会话语音翻译

本研究致力于解决单声道多说话者对话转写和翻译问题，提出了一种名为 Speaker-Turn Aware Conversational Speech Translation 的端到端多任务训练模型，通过在序列化标注格式中使用特殊标记来结合自动语音识别、语音翻译和说话者转换检测。在针对多说话者条件的实验中，我们使用合并了两个单声道通道的 Fisher-CALLHOME 语料库，以更真实和具有挑战性的场景来评估模型性能，实验结果表明我们的模型在多说话者条件下优于传统说话者转写系统，并且在单说话者条件下表现相当。同时，我们还提供了数据处理和模型训练的脚本。

Nov, 2023