一种基于注意力机制的在线语音识别模型
本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段,将 Listen Attend Spell(LAS)模型应用于语音搜索任务中,从而将错误率从 9.2% 显著降至 5.6%。在听写任务中,该模型的错误率为 4.1%,略优于传统系统的 5.0%。
Dec, 2017
本文提出了一种基于 Transformer 的块处理方法来解决整个输入序列必须用于计算自注意力的问题,并结合 MoChA 算法实现了在线自动语音识别系统,实验结果表明,相较于传统的块处理方法,该方法在 WSJ 和 AISHELL-1 数据集上表现更加优异。
Oct, 2019
本论文介绍了基于 Transformer 的在线 CTC/Attention E2E ASR 架构,该架构包括块自注意力编码器和基于单调截断注意力的自注意力解码器,通过将块自注意力编码器和基于单调截断注意力的自注意力解码器集成到在线 CTC/Attention 架构中,实现了在线语音识别,与离线基线相比,具有最低为 0.19%的 CER 衰减和显着的性能提升。
Jan, 2020
提出了一种非自回归语音识别模型 ——LASO,利用注意力机制,位置关联总结器,自注意机制等,把语音识别转化为逐位置分类的问题,并提供了跨模态迁移学习方法来提高性能。
Feb, 2021
本文研究了基于注意力机制的端到端语音识别模型在 Flipkart 语音搜索任务的应用,使用编码器 - 解码器 LAS 架构实现非流式和流式模型并比较它们的性能和延迟要求,结果表明变压器模型具有可接受的词错误率和最低延迟要求,在第二次 LAS 二次得分中相对 WER 以 5ms 以内的延迟开销提高 16%左右,此外,观察到在第二次得分模式下,所有编码器提供的好处相似,而性能的差异则在独立文本生成模式下更为突出。
Jun, 2022
通过对大型语言模型和语音基础编码器进行多种组合的基准测试和研究,本文提出了一种简单而高效的 SLAM-ASR 系统,该系统在 Librispeech 基准测试中表现出色,并且超过了最新的音频通用模型。同时,本文还探讨了基于 LLM 的 ASR 的能力发展和模态对齐的问题。
Feb, 2024
本研究论文扩展了端到端的框架,以包含麦克风阵列信号处理以进行噪声抑制和语音增强,并能够共同优化束形成和识别架构。实验结果表明,我们的多通道端到端系统在去噪和语音增强任务上表现更好。
Mar, 2017
研究将稀疏和单调注意力引入基于 Transformer 的自动语音识别,以克服传统 Transformer 中针对流式识别的自我注意和多头注意的局限性,并在多项基准测试中取得了良好的效果。
Sep, 2022