一种基于注意力机制的在线语音识别模型

Nov, 2018

一种基于注意力机制的在线语音识别模型

An Online Attention-based Model for Speech Recognition

Ruchao Fan, Pan Zhou, Wei Chen, Jia Jia, Gang Liu

TL;DR本文旨在通过采用延迟控制的双向结构和自适应单调分块注意力机制来消除全局软注意机制和双向编码器对实时语音识别的阻碍，并提出了两种方法来缓解两种方法结合时的性能下降，从而成功地获得了一个在线的 LAS 模型 LC-AMoChA。

Abstract

attention-based end-to-end models such as Listen, Attend and Spell (LAS), simplify the whole pipeline of traditional automatic speech recognition (ASR) systems and become popular in the field of →

attention-based end-to-end models listen, attend and spell (las)speech recognition bidirectional encoder adaptive monotonic chunk-wise attention (amocha)

发现论文，激发创造

基于序列到序列模型的最先进语音识别技术

本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段，将 Listen Attend Spell（LAS）模型应用于语音搜索任务中，从而将错误率从 9.2% 显著降至 5.6%。在听写任务中，该模型的错误率为 4.1%，略优于传统系统的 5.0%。

Dec, 2017

基于 Transformer 的在线端到端自动语音识别

本文提出了一种基于 Transformer 的块处理方法来解决整个输入序列必须用于计算自注意力的问题，并结合 MoChA 算法实现了在线自动语音识别系统，实验结果表明，相较于传统的块处理方法，该方法在 WSJ 和 AISHELL-1 数据集上表现更加优异。

Oct, 2019

基于 Transformer 的 CTC / 注意力机制在线端到端语音识别架构

本论文介绍了基于 Transformer 的在线 CTC/Attention E2E ASR 架构，该架构包括块自注意力编码器和基于单调截断注意力的自注意力解码器，通过将块自注意力编码器和基于单调截断注意力的自注意力解码器集成到在线 CTC/Attention 架构中，实现了在线语音识别，与离线基线相比，具有最低为 0.19％的 CER 衰减和显着的性能提升。

Jan, 2020

通过非自回归模型和 BERT 的跨模态知识转移实现快速端到端语音识别

提出了一种非自回归语音识别模型 ——LASO，利用注意力机制，位置关联总结器，自注意机制等，把语音识别转化为逐位置分类的问题，并提供了跨模态迁移学习方法来提高性能。

Feb, 2021

听，关注和拼写

该研究介绍了一种名为 LAS 的神经网络，它是一种端到端的语音识别模型，并且其性能表现比目前目前最先进的 CLDNN-HMM 模型性能更好。

Aug, 2015

单调块级注意力

本文介绍了一种名为 MoChA 的注意力机制，该机制可以将输入序列自适应地分成小块，以实现在线和线性时间解码，并在在线语音识别和文档摘要等任务中取得了良好的结果。

Dec, 2017

基于关注机制端到端语音识别的编码器比较：独立识别模式与重打分模式

本文研究了基于注意力机制的端到端语音识别模型在 Flipkart 语音搜索任务的应用，使用编码器 - 解码器 LAS 架构实现非流式和流式模型并比较它们的性能和延迟要求，结果表明变压器模型具有可接受的词错误率和最低延迟要求，在第二次 LAS 二次得分中相对 WER 以 5ms 以内的延迟开销提高 16％左右，此外，观察到在第二次得分模式下，所有编码器提供的好处相似，而性能的差异则在独立文本生成模式下更为突出。

Jun, 2022

具有强大 ASR 能力的 LMM 的令人尴尬的简单方法

通过对大型语言模型和语音基础编码器进行多种组合的基准测试和研究，本文提出了一种简单而高效的 SLAM-ASR 系统，该系统在 Librispeech 基准测试中表现出色，并且超过了最新的音频通用模型。同时，本文还探讨了基于 LLM 的 ASR 的能力发展和模态对齐的问题。

Feb, 2024

多通道端到端语音识别

本研究论文扩展了端到端的框架，以包含麦克风阵列信号处理以进行噪声抑制和语音增强，并能够共同优化束形成和识别架构。实验结果表明，我们的多通道端到端系统在去噪和语音增强任务上表现更好。

Mar, 2017

基于 Transformer 的自适应稀疏和单调注意力自动语音识别

研究将稀疏和单调注意力引入基于 Transformer 的自动语音识别，以克服传统 Transformer 中针对流式识别的自我注意和多头注意的局限性，并在多项基准测试中取得了良好的效果。

Sep, 2022