多语言 ASR 的协商扩展
本篇文章探讨了使用 deliberation network 既关注声学特征又关注第一步文本假说的方法来提高两步叠加模型在 ASR 中性能的优化,经过 Google Voice Search 的比较实验,正确率提高了 12%(相对于 LAS rescoring),在专有名词测试集上,提高了 23%。与传统大模型相比,最好的模型在 VS 上表现要好 21%。
Mar, 2020
通过使用文本数据和半监督训练,结合基于 Transformer 的双向编码器表示和文本到语音解码器以及半监督训练,实现了多项任务中 4% 至 12% 的 WER 降低,并比最先进的语言模型(LM)缩减的 Deliberation 模型相比降低了 11% 的 Google Voice 搜索 WER,达到了与最先进的 LM 重评分器相当的人类评估结果。
Jun, 2022
Spoken Language Understanding (SLU) 的关键组成部分是将语音转化为语义分析,以便进行任务执行。本研究介绍了 PRoDeliberation,一种利用基于连接主义时间分类的解码策略和降噪目标来训练稳健的非自回归思考模型的新方法。我们展示了 PRoDeliberation 实现了并行解码的延迟降低(比自回归模型提高 2-10 倍),同时保持了修正自回归思考系统的自动语音识别(ASR)误识别的能力。此外,我们进一步展示了降噪训练的设计使得 PRoDeliberation 能够克服小型 ASR 设备的限制,并对系统的每个组件的必要性进行了分析。
Jun, 2024
本文提出了一种新颖的基于推理的端到端(E2E)口语语音理解(SLU)方法,通过在自动语音识别(ASR)的文本和音频嵌入上进行条件控制,流式传输的 ASR 模型产生第一步的假设并由第二步的自然语言理解(NLU)组件生成语义解析。
Apr, 2022
本文研究了 70 种语言的大规模多语种 ASR 模型,并通过优化多重嵌入和输出模型的标记化策略,相对于单一语种模型,实现了 13.9%-15.6% 的平均 WER 改进,并展示了其泛化性和零样本学习能力在 Multilingual Librispeech 上高达 9.5% 的 WER 表现。
Nov, 2022
提出一种新的两阶段端到端的语音识别模型,通过训练配对数据和未配对文本数据的组合来提高 ASR 性能,称为 Deliberation-JATD,它结合了 Deliberation 的拼写校正能力和 JATD 的未配对文本数据使用,实现了在多个测试集上的显著提高,特别是在稀有词汇方面,相对降低了词误率 12% 至 22.5%。同时该模型不需要增加模型大小或多阶段训练,成为一种高效的适用于设备的候选模型。
Mar, 2023
通过从异构语料库中训练神经语言模型、限制时延影响和处理第二遍修正器中的个性化偏差等挑战,本文在第二遍 n-best rescoring 框架中使用神经 LM,实现了 6.2% 的相对 WER 降低,而延迟增加很小。
Jul, 2019