模块化混合自回归传感器

Oct, 2022

Modular Hybrid Autoregressive Transducer

Zhong Meng, Tongzhou Chen, Rohit Prabhavalkar, Yu Zhang, Gary Wang...

TL;DR本文提出了一种模块化混合自回归转录器（MHAT），该转录器具有结构上分离的标签和空白解码器，涉及共享的声学编码器，因此在语音识别中具有方便的文本自适应性和内部语言模型。在大量实验中该方法的内部语言模型具有高效性，因此在 Google 大规模生产数据中，使用 MHAT 相比 400K 小时的 HAT 训练，进行文本自适应后，无需语言融合可获得高达 12.4％的相对字错率减少和 21.5％的相对字错率减少与语言融合。

Abstract

Text-only adaptation of a transducer model remains challenging for end-to-end speech recognition since the transducer has no clearly separated acoustic model (AM), language model (LM) or blank model. In this work, we propose a modular →

hybrid autoregressive transducer internal language model speech recognition text adaptation acoustic encoder

发现论文，激发创造

训练和调整 RNN 转录自动语音识别模型的文本输入整合

本文提出了一种新的文本表示和训练框架，用于对端到端自动语音识别模型进行内部语言模型（LM）的有效适应，仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。

Feb, 2022

使用 LM-aware MWER 训练来提高罕见词语识别

该研究介绍了在 discriminative training framework 中如何在 hybrid autoregressive transducer (HAT) 模型的学习中引入语言模型 (LMs) 来缓解训练和推理过程中使用 LMs 存在的差距。在浅层融合和重甄时，使用 LMs 显着提高了仅在训练期间极少见的单词的识别准确性。

Apr, 2022

基于混合注意力的编码器 - 解码器模型用于高效语言模型适应

提出了一种新的混合注意力编码器 - 解码器（HAED）语音识别模型，通过分离声学模型和语言模型，以保留传统混合自动语音识别系统的模块化，实现了对传统基于文本的语言模型自适应技术的使用，从而在相对于纯 AED 模型在领域外文本数据进行语言模型自适应时实现了 21% 的词错误率（WER）改进，并且在一般测试集上只有微小的词错误率（WER）退化。

Sep, 2023

基于 Transformer 的混合语音识别声学建模

本文提出并评估了基于 transformer 的声学模型在混合语音识别中的应用。通过讨论不同的建模选择，包括各种位置嵌入方法及迭代损失等，我们证明了在 Librispeech 基准测试中使用 transformer 模型相比其他模型性能更优越，且结合神经网络进行二次评分，我们的方法可以达到最先进的结果。

Oct, 2019

多假设 RNN-T 损失函数用于神经传输器的无监督微调和自学习

本文提出了一种新的方法，利用未标记的语音数据对递归神经网络转录器端对端自动语音识别系统进行无监督的微调和自我训练，其中包括引入多重假设 RNN-T 损失以缓解 ASR 错误对无标记数据的影响，并在 Librispeech，Wall Street Journal（WSJ），Aurora-4 和 CHiME-4 数据集上进行实验，显著提高了系统性能。

Jul, 2022

混合回归神经机器翻译

本文提出了一种叫做混合回归翻译的翻译模型，它结合了自回归翻译和非自回归翻译模式的优势，通过在自回归过程中预测部分结果，再通过非自回归方式填充其余结果的方式，开发出了一种基于这两种模式的翻译模型，并对其效率和准确性进行了评估和比较。

Oct, 2022

关于语音到文本和大型语言模型集成的仅解码器架构

该研究介绍了 Speech-LLaMA，一种将声学信息有效地整合到基于文本的大型语言模型中的新方法，并进一步探索了仅解码器架构在语音处理任务中的应用。

Jul, 2023

多模态数据增强用于端到端语音识别

本文提出了一种新的端到端自动语音识别（ASR）架构，可以利用符号输入和传统的声学输入进行训练，该架构使用两个单独的编码器：一个用于声学输入，另一个用于符号输入，并共享注意力和解码器参数；通过研究不同的方法将大型文本语料库转换成符号形式进行训练，我们的最佳 MMDA 设置不仅可以在字符错误率（CER）上获得小的改善，而且在基线上，无论是否有外部语言模型，均可以获得 7-10％相对词错误率（WER）的改进。

Mar, 2018

硬件感知的 Transformer 模型用于高效自然语言处理

通过神经架构搜索，设计了硬件感知的 Transformer 来保证在资源受限的硬件平台上具有低延迟推断的能力，从而在机器翻译任务中显著提高速度和模型效率。

May, 2020

分解转导模型的有效内部语言模型训练和融合

基于因子化转导模型的新型内部语言模型 (ILM) 训练和解码策略，在 LibriSpeech 数据集上相对于标准解码方法获得了 17% 的相对改进，并与外部语言模型融合强化的强 RNN-T 基线相比，在一般集上获得了 5.5% 的相对改进和对于罕见单词的 8.9% WER 降低。该模型在无需依赖外部语言模型的情况下，达到了优秀的性能，非常适用于生产用例，并提出了一种新颖且内存高效的 ILM 融合意识的最小词误差率 (MWER) 训练方法来进一步提升性能。

Apr, 2024