优化端到端自动语音识别在数字序列上的性能
这篇论文提出对 RNN-T 模型进行修改,以利用附带的元数据文本,从而改善对于命名实体词汇的识别,并在社交媒体视频数据集上取得了 16% 左右的提升。
Jun, 2020
本文提出了一种新的文本表示和训练框架,用于对端到端自动语音识别模型进行内部语言模型(LM)的有效适应,仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。
Feb, 2022
本研究提出了一种基于上下文偏差和似然比的方法,用于改善自然语言下的自动语音识别的效果。该方法以 1-Best 错误率为主要指标,在多个跨领域数据集上相对提高了 10%的识别正确率,同时也优化了 8-Best Oracle WER。
Jan, 2022
利用 TTS 引擎为训练数据中不常见的词提供合成音频,并使用正则化技术在编码器上应用弹性权重整合,从而提高 RNN-T 对 OOV 词的识别准确率并保持对非 OOV 词的性能,相对 WER 可减少 57%。
Nov, 2020
本文研究了如何动态地获取重要的词汇以及将重要的关键词从支持性文档中提取并用于标记单词记忆,以显著提高新词的检测率,并在只添加少量单词的情况下仅轻微增加误报率。
Mar, 2022
比较了两种方法来训练具有有限数量的丰富标签数据的无状态变换器的端到端联合丰富和规范自动语音识别系统,其中第一种方法使用语言模型生成规范化训练数据的伪丰富转录,第二种方法使用单个解码器以输出类型为条件。第一种方法提供了更好的外域数据性能,相对误差减少了 9%。第二种方法展示了使用低至 5% 丰富训练数据的端到端联合丰富和规范自动语音识别系统的可行性,误差增加了 2.42% 绝对值。
Nov, 2023
我们的研究致力于创建数字识别的微型模型,以处理反映现实世界发音模式的不同讲话样式,并且相较于商业或开源的 ASR 系统,我们的微型模型在识别数字方面减少了错误率(我们最佳微型模型的错误率为 1.8%,而 Whisper 错误率为 5.8%),而且占用的内存空间较低(我们的模型为 0.66 GB VRAM,而 Whisper 为 11 GB VRAM)。
Feb, 2024
本文介绍了利用两类 E2E 模型(RNN 转录器和基于注意力的编码器 - 解码器)进行口语语言理解系统的语义实体预测的研究,以及提出的一种数据增强技术和一种隐式注意力对齐方法来推断口语顺序,从而提高 E2E SLU 模型的性能。相较于以前报导的结果,F1 分数显著提高了超过 11%(对于 RNN-T)和约 2%(对于基于注意力的编码器 - 解码器)。
Jan, 2022
本篇论文提出了一种利用文本到语音系统生成 OOV 单词并通过损失调整和正则化实现语音识别系统的持续学习,并且相比于之前的方法,该方法可以实现更高的召回率和更高的准确性。
Feb, 2023