优化端到端自动语音识别在数字序列上的性能

Jul, 2019

优化端到端自动语音识别在数字序列上的性能

Improving Performance of End-to-End ASR on Numeric Sequences

Cal Peyser, Hao Zhang, Tara N. Sainath, Zelin Wu

TL;DR本文研究使用文本到语音系统和小型神经网络来解决在设备上语音识别中模型训练的问题，以提高 E2E 模型在数字数据上的性能表现。

Abstract

Recognizing written domain numeric utterances (e.g. I need $1.25.) can be challenging for asr systems, particularly when numeric sequences are not seen during training. This out-of-vocabulary (OOV) issue is addressed in conventional →

asr systems oov issue on-device speech recognition e2e models text-to-speech system

发现论文，激发创造

使用流式端到端模型进行长篇语音识别

通过多样化训练数据以及 LSTM 状态操作模拟长形音频，可以增强端到端语音识别模型对未知领域数据的泛化能力。

Oct, 2019

开放领域自适应循环神经网络转录技术

这篇论文提出对 RNN-T 模型进行修改，以利用附带的元数据文本，从而改善对于命名实体词汇的识别，并在社交媒体视频数据集上取得了 16% 左右的提升。

Jun, 2020

训练和调整 RNN 转录自动语音识别模型的文本输入整合

本文提出了一种新的文本表示和训练框架，用于对端到端自动语音识别模型进行内部语言模型（LM）的有效适应，仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。

Feb, 2022

一种基于似然比的 E2E 模型领域自适应方法

本研究提出了一种基于上下文偏差和似然比的方法，用于改善自然语言下的自动语音识别的效果。该方法以 1-Best 错误率为主要指标，在多个跨领域数据集上相对提高了 10％的识别正确率，同时也优化了 8-Best Oracle WER。

Jan, 2022

使用合成音频改善端到端 ASR 系统中新词的识别

利用 TTS 引擎为训练数据中不常见的词提供合成音频，并使用正则化技术在编码器上应用弹性权重整合，从而提高 RNN-T 对 OOV 词的识别准确率并保持对非 OOV 词的性能，相对 WER 可减少 57％。

Nov, 2020

动态环境下的短期词汇学习

本文研究了如何动态地获取重要的词汇以及将重要的关键词从支持性文档中提取并用于标记单词记忆，以显著提高新词的检测率，并在只添加少量单词的情况下仅轻微增加误报率。

Mar, 2022

具有有限数量丰富训练数据的端到端联合丰富和标准化 ASR

比较了两种方法来训练具有有限数量的丰富标签数据的无状态变换器的端到端联合丰富和规范自动语音识别系统，其中第一种方法使用语言模型生成规范化训练数据的伪丰富转录，第二种方法使用单个解码器以输出类型为条件。第一种方法提供了更好的外域数据性能，相对误差减少了 9%。第二种方法展示了使用低至 5% 丰富训练数据的端到端联合丰富和规范自动语音识别系统的可行性，误差增加了 2.42% 绝对值。

Nov, 2023

精确安全交易的数字微模型

我们的研究致力于创建数字识别的微型模型，以处理反映现实世界发音模式的不同讲话样式，并且相较于商业或开源的 ASR 系统，我们的微型模型在识别数字方面减少了错误率（我们最佳微型模型的错误率为 1.8%，而 Whisper 错误率为 5.8%），而且占用的内存空间较低（我们的模型为 0.66 GB VRAM，而 Whisper 为 11 GB VRAM）。

Feb, 2024

提升口语理解中集合预测的端到端模型

本文介绍了利用两类 E2E 模型（RNN 转录器和基于注意力的编码器 - 解码器）进行口语语言理解系统的语义实体预测的研究，以及提出的一种数据增强技术和一种隐式注意力对齐方法来推断口语顺序，从而提高 E2E SLU 模型的性能。相较于以前报导的结果，F1 分数显著提高了超过 11％（对于 RNN-T）和约 2％（对于基于注意力的编码器 - 解码器）。

Jan, 2022

强调未见过的单词：端到端语音识别的新词汇习得

本篇论文提出了一种利用文本到语音系统生成 OOV 单词并通过损失调整和正则化实现语音识别系统的持续学习，并且相比于之前的方法，该方法可以实现更高的召回率和更高的准确性。

Feb, 2023