学习主导性的序列输出训练

Jul, 2024

Serialized Output Training by Learned Dominance

Ying Shi, Lantian Li, Shi Yin, Dong Wang, Jiqing Han

TL;DR通过在注意力编码器-解码器架构中引入辅助模块，自动识别多讲话者语音输出序列的关键因素，本研究提出了一种基于模型的串行化策略。实验结果表明，在LibriSpeech和LibriMix数据库上，我们的方法在2个混合和3个混合情况下显著超越了PIT和FIFO基准。进一步分析显示，串行化模块通过音量和性别等因素识别混合中的主要语音成分，并根据优先级得分对语音成分进行排序。

Abstract

serialized output training (SOT) has showcased state-of-the-art performance in multi-talker speech recognition by sequentially decoding the speech of individual speakers. To address the challenging →

发现论文，激发创造

使用置换不变训练技术识别多说话者语音

本文提出了一种新的技术，通过排列不变训练 (PIT) 来直接识别混合语音中的多个语音流，解决了标签置换和说话人追踪问题。

Mar, 2017

采用置换不变训练的单通道多说话人语音识别

本文探讨了如何通过扩展置换不变训练（PIT）方法并引入前端特征分离模块（最小均方误差标准）和后端识别模块（最小交叉熵标准），解决在多说话人混合语音识别中的问题，并且在 AMI数据集（包括二人和三人的混音语音）的实验中，相对于同类不同说话人的语音识别系统，识别率提高了 45% 和 25%。

Jul, 2017

使用令牌级串行化输出训练的流式多说话人ASR

本文提出了一种基于token级别序列化输出训练（t-SOT）的新型流式多说话人自动语音识别框架，该框架在LibriSpeechMix和LibriCSS数据集中显示出比以前的结果更高的单词错误率的优势。

Feb, 2022

BA-SOT: 面向多说话人语音识别的边界感知序列化输出训练

该论文提出了一种基于边界的序列化输出训练（BA-SOT）模型，通过显式地将边界知识纳入解码器，结合语音识别的多个发言者和发言者变化预测，及通过引入二阶段连接时序分类（CTC）策略的令牌级SOT CTC来恢复时间上下文信息，并引入了针对发言者变化预测精度的话语依存的字符错误率（UD-CER）。BA-SOT模型在CER / UD-CER方面均优于原始SOT模型，并且可以通过预训练的ASR模型进行BA-SOT模型初始化。

May, 2023

利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练

该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式Transformer-Transducer，并提出了一种联合令牌级串行输出训练方法以实现有效的ASR和ST内容生成，其平均ASR延迟为1秒，ST延迟为1.3秒，在多语言情况下优化了输出质量表现。

Jul, 2023

Echotune：利用语音ASR任务中可变长度特性的模块化提取器

Transformer架构已被证明在自动语音识别（ASR）任务中非常有效，成为该领域大量研究的基础组件。我们提出了Echo-MSA，这是一个灵活模块，配备有可变长度的注意力机制，适应不同复杂性和持续时间的语音样本。我们的评估结果表明，将Echo-MSA集成到主模型的训练过程中显著提高了字词错误率（WER）的性能，同时保持了原始模型的稳定性。

Sep, 2023

跨说话人编码网络用于多说话者语音识别

这项工作提出了一个跨说话人编码（Cross-Speaker Encoding，CSE）网络，将单输入多输出（SIMO）模型的局限性通过集成串行输出训练（SOT）的基于注意力的编码器-解码器架构的单输入单输出（SISO）模型来解决，首次尝试将SIMO和SISO整合进多说话人语音识别中，实验结果表明CSE-SOT模型在LibrispeechMix数据集上比SOT模型的词错误率（WER）平均降低10％，在高重叠语音上降低16％。

Jan, 2024

利用大型语言模型提升多讲者自动语音识别性能

本研究针对多讲者自动语音识别（ASR）中重叠语音识别的挑战，提出了一种基于大型语言模型（LLM）的序列化输出训练方法。这种新方法通过利用预训练的语音编码器和LLM，在多讲者数据集上进行微调，实验结果表明该方法在模拟数据集LibriMix和真实世界数据集AMI的评价集上都超越了传统的AED方法，显示出显著的性能提升。

Aug, 2024

重叠编码分离的序列化语音信息指导用于多说话人自动语音识别

本研究针对多说话人自动语音识别中的训练难题，提出了一种重叠编码分离的方法，以充分利用连接主义时序分类和注意力混合损失的优势。实验结果表明，所提出的方法显著提高了在复杂场景下的识别性能，有助于从重叠编码中分离出单说话人信息。

Sep, 2024

重叠编码分离的序列语音信息引导技术用于多说话人自动语音识别

本研究解决了在多说话人自动语音识别中，仅凭注意力损失进行训练的难题。通过提出重叠编码分离（EncSep）技术，结合连接时序分类（CTC）和注意力混合损失，显著提升了对复杂场景的编码表现，并在LibriMix上的实验显示，该方法有效分离了单一说话人的编码，进一步提升了性能。

Sep, 2024