BECTRA:基于转换器的 BERT 增强编码器端到端自动语音识别
本文介绍了一种基于上下文的自动语音识别系统:context-aware transformer transducer (CATT) 网络,通过多头注意力机制、编码上下文数据和使用 BERT 等技术方法,取得了比基线 transformer transducer 和现有深度上下文模型分别提高了 24.2% 和 19.4% 的词错误率性能提升。
Nov, 2021
本文介绍了一种基于联合 CTC-Attention 模型的改进方法 —— 语言增强变压器,它通过在训练过程中将改进的 CTC 信息引入解码器,从而使其更加鲁棒,在 AISHELL-1 语音语料库上的实验表明,字符误差率(CER)减少了高达 7%,同时发现在联合 CTC-Attention ASR 模型中,解码器对语言信息比声学信息更敏感。
Oct, 2022
本文提出了一种基于块重复策略和适配器模块的解决方案 (BRST 和 ADM),旨在适应资源限制的小型自动语音识别(ASR)系统,并在公共语料库实验中取得了较好的识别结果。
Mar, 2023
本论文介绍了基于 Transformer 的在线 CTC/Attention E2E ASR 架构,该架构包括块自注意力编码器和基于单调截断注意力的自注意力解码器,通过将块自注意力编码器和基于单调截断注意力的自注意力解码器集成到在线 CTC/Attention 架构中,实现了在线语音识别,与离线基线相比,具有最低为 0.19%的 CER 衰减和显着的性能提升。
Jan, 2020
本论文介绍了一种 CTC Alignment-based Single-Step Non-Autoregressive Transformer(CASS-NAT)方法,用于自动语音识别,通过利用与 CTC 对齐的语音边界信息提取标记级别音频嵌入来提高推理速度,实现了自监督学习,提出了多个训练策略来改善单词错误率(WER)表现,并探究了基于误差的对齐采样方法以减少训练和测试过程中的对齐不匹配,实验结果表明 CASS-NAT 对于多个 ASR 任务具有接近于 AT 的 WER,同时提供了~24 倍的推理加速,并且未经过语言模型的情况下,实现了新的最高效果。
Apr, 2023
我们提出了一种联合建模方案,通过多任务学习和三种新的单通道波束搜索算法,我们训练出的 4D 模型在端到端自动语音识别上取得了更好的性能,并超过了使用单个解码器的模型。
Jun, 2024
本文提出了一种方法,通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题,并扩展了注意力机制的解码器和神经音响模式的解码器,以实现错误率的降低。
Feb, 2022
比较了两种方法来训练具有有限数量的丰富标签数据的无状态变换器的端到端联合丰富和规范自动语音识别系统,其中第一种方法使用语言模型生成规范化训练数据的伪丰富转录,第二种方法使用单个解码器以输出类型为条件。第一种方法提供了更好的外域数据性能,相对误差减少了 9%。第二种方法展示了使用低至 5% 丰富训练数据的端到端联合丰富和规范自动语音识别系统的可行性,误差增加了 2.42% 绝对值。
Nov, 2023
本文提出了一种新的语音识别模型 MCTT,它具有端到端多通道训练、低计算成本和低延迟等特点,适合于在设备上进行流式解码的场景,并通过限制注意力计算中的未来和过去上下文来提高 MCTT 的计算成本。研究发现,该模型在多通道音频输入的语音识别方面具有更好的性能,速度快且准确率高。
Aug, 2021
本文詳細描述了使用遞歸神經網絡轉導器構建端到端語音識別器的努力,該模型可以以流式方式在實時下進行解碼,能夠應對各種需求,能利用特定用戶的上下文信息,並超越基於 CTC 的模型在各評價指標中的性能表現。
Nov, 2018