BECTRA：基于转换器的 BERT 增强编码器端到端自动语音识别

Nov, 2022

BECTRA：基于转换器的 BERT 增强编码器端到端自动语音识别

BECTRA: Transducer-based End-to-End ASR with BERT-Enhanced Encoder

Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi, Shinji Watanabe

TL;DRBECTRA 是一种新型端到端自动语音识别模型，通过使用 BERT 增强编码器并采用目标任务适用的词汇来解决预训练语言模型的词汇匹配问题，实现了 BERT 嵌入式的自动语音识别，并在多种 ASR 任务上展现出更优秀的性能。

Abstract

We present bert-ctc-transducer (BECTRA), a novel end-to-end automatic speech recognition (E2E-ASR) model formulated by the transducer with a BERT-enhanced encoder. Integrating a large-scale pre-trained language model

bert-ctc-transducer end-to-end automatic speech recognition pre-trained language model vocabulary mismatch asr-specific decoder

发现论文，激发创造

面向上下文的语音识别变换器转录器

本文介绍了一种基于上下文的自动语音识别系统：context-aware transformer transducer (CATT) 网络，通过多头注意力机制、编码上下文数据和使用 BERT 等技术方法，取得了比基线 transformer transducer 和现有深度上下文模型分别提高了 24.2% 和 19.4% 的词错误率性能提升。

Nov, 2021

具有 CTC 嵌入的语言增强变压器模型用于语音识别

本文介绍了一种基于联合 CTC-Attention 模型的改进方法 —— 语言增强变压器，它通过在训练过程中将改进的 CTC 信息引入解码器，从而使其更加鲁棒，在 AISHELL-1 语音语料库上的实验表明，字符误差率（CER）减少了高达 7％，同时发现在联合 CTC-Attention ASR 模型中，解码器对语言信息比声学信息更敏感。

Oct, 2022

超越通用 Transformer: 在 Transformer 中使用适配器进行块重复以进行自动语音识别

本文提出了一种基于块重复策略和适配器模块的解决方案 (BRST 和 ADM)，旨在适应资源限制的小型自动语音识别（ASR）系统，并在公共语料库实验中取得了较好的识别结果。

Mar, 2023

基于 Transformer 的 CTC / 注意力机制在线端到端语音识别架构

本论文介绍了基于 Transformer 的在线 CTC/Attention E2E ASR 架构，该架构包括块自注意力编码器和基于单调截断注意力的自注意力解码器，通过将块自注意力编码器和基于单调截断注意力的自注意力解码器集成到在线 CTC/Attention 架构中，实现了在线语音识别，与离线基线相比，具有最低为 0.19％的 CER 衰减和显着的性能提升。

Jan, 2020

一种基于 CTC 对齐的非自回归变压器模型用于端到端自动语音识别

本论文介绍了一种 CTC Alignment-based Single-Step Non-Autoregressive Transformer（CASS-NAT）方法，用于自动语音识别，通过利用与 CTC 对齐的语音边界信息提取标记级别音频嵌入来提高推理速度，实现了自监督学习，提出了多个训练策略来改善单词错误率（WER）表现，并探究了基于误差的对齐采样方法以减少训练和测试过程中的对齐不匹配，实验结果表明 CASS-NAT 对于多个 ASR 任务具有接近于 AT 的 WER，同时提供了～24 倍的推理加速，并且未经过语言模型的情况下，实现了新的最高效果。

Apr, 2023

4D ASR: 联合波束搜索综合 CTC、注意力、转导和掩码预测解码器

我们提出了一种联合建模方案，通过多任务学习和三种新的单通道波束搜索算法，我们训练出的 4D 模型在端到端自动语音识别上取得了更好的性能，并超过了使用单个解码器的模型。

Jun, 2024

大型预训练语言模型向端到端语音识别器的知识转移

本文提出了一种方法，通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题，并扩展了注意力机制的解码器和神经音响模式的解码器，以实现错误率的降低。

Feb, 2022

具有有限数量丰富训练数据的端到端联合丰富和标准化 ASR

比较了两种方法来训练具有有限数量的丰富标签数据的无状态变换器的端到端联合丰富和规范自动语音识别系统，其中第一种方法使用语言模型生成规范化训练数据的伪丰富转录，第二种方法使用单个解码器以输出类型为条件。第一种方法提供了更好的外域数据性能，相对误差减少了 9%。第二种方法展示了使用低至 5% 丰富训练数据的端到端联合丰富和规范自动语音识别系统的可行性，误差增加了 2.42% 绝对值。

Nov, 2023

多通道 Transformer Transducer 语音识别

本文提出了一种新的语音识别模型 MCTT，它具有端到端多通道训练、低计算成本和低延迟等特点，适合于在设备上进行流式解码的场景，并通过限制注意力计算中的未来和过去上下文来提高 MCTT 的计算成本。研究发现，该模型在多通道音频输入的语音识别方面具有更好的性能，速度快且准确率高。

Aug, 2021

移动设备端到端语音识别流式处理

本文詳細描述了使用遞歸神經網絡轉導器構建端到端語音識別器的努力，該模型可以以流式方式在實時下進行解碼，能夠應對各種需求，能利用特定用戶的上下文信息，並超越基於 CTC 的模型在各評價指標中的性能表現。

Nov, 2018