学习主导性的序列输出训练
本文探讨了如何通过扩展置换不变训练(PIT)方法并引入前端特征分离模块(最小均方误差标准)和后端识别模块(最小交叉熵标准),解决在多说话人混合语音识别中的问题,并且在 AMI数据集(包括二人和三人的混音语音)的实验中,相对于同类不同说话人的语音识别系统,识别率提高了 45% 和 25%。
Jul, 2017
本文提出了一种基于token级别序列化输出训练(t-SOT)的新型流式多说话人自动语音识别框架,该框架在LibriSpeechMix和LibriCSS数据集中显示出比以前的结果更高的单词错误率的优势。
Feb, 2022
该论文提出了一种基于边界的序列化输出训练(BA-SOT)模型,通过显式地将边界知识纳入解码器,结合语音识别的多个发言者和发言者变化预测,及通过引入二阶段连接时序分类(CTC)策略的令牌级SOT CTC来恢复时间上下文信息,并引入了针对发言者变化预测精度的话语依存的字符错误率(UD-CER)。BA-SOT模型在CER / UD-CER方面均优于原始SOT模型,并且可以通过预训练的ASR模型进行BA-SOT模型初始化。
May, 2023
该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式Transformer-Transducer,并提出了一种联合令牌级串行输出训练方法以实现有效的ASR和ST内容生成,其平均ASR延迟为1秒,ST延迟为1.3秒,在多语言情况下优化了输出质量表现。
Jul, 2023
Transformer架构已被证明在自动语音识别(ASR)任务中非常有效,成为该领域大量研究的基础组件。我们提出了Echo-MSA,这是一个灵活模块,配备有可变长度的注意力机制,适应不同复杂性和持续时间的语音样本。我们的评估结果表明,将Echo-MSA集成到主模型的训练过程中显著提高了字词错误率(WER)的性能,同时保持了原始模型的稳定性。
Sep, 2023
这项工作提出了一个跨说话人编码(Cross-Speaker Encoding,CSE)网络,将单输入多输出(SIMO)模型的局限性通过集成串行输出训练(SOT)的基于注意力的编码器-解码器架构的单输入单输出(SISO)模型来解决,首次尝试将SIMO和SISO整合进多说话人语音识别中,实验结果表明CSE-SOT模型在LibrispeechMix数据集上比SOT模型的词错误率(WER)平均降低10%,在高重叠语音上降低16%。
Jan, 2024
本研究针对多讲者自动语音识别(ASR)中重叠语音识别的挑战,提出了一种基于大型语言模型(LLM)的序列化输出训练方法。这种新方法通过利用预训练的语音编码器和LLM,在多讲者数据集上进行微调,实验结果表明该方法在模拟数据集LibriMix和真实世界数据集AMI的评价集上都超越了传统的AED方法,显示出显著的性能提升。
Aug, 2024
本研究针对多说话人自动语音识别中的训练难题,提出了一种重叠编码分离的方法,以充分利用连接主义时序分类和注意力混合损失的优势。实验结果表明,所提出的方法显著提高了在复杂场景下的识别性能,有助于从重叠编码中分离出单说话人信息。
Sep, 2024
本研究解决了在多说话人自动语音识别中,仅凭注意力损失进行训练的难题。通过提出重叠编码分离(EncSep)技术,结合连接时序分类(CTC)和注意力混合损失,显著提升了对复杂场景的编码表现,并在LibriMix上的实验显示,该方法有效分离了单一说话人的编码,进一步提升了性能。
Sep, 2024