多语言 ASR 的协商扩展

Oct, 2022

Scaling Up Deliberation for Multilingual ASR

Ke Hu, Bo Li, Tara N. Sainath

TL;DR本文研究了基于 Transformer 模型的多语言自动语音识别模型，提出了一种多语言的反推算法用于提高模型的识别能力，实验结果显示，相较于单语言算法，该算法的识别误差平均降低了 4%，在某些语言上甚至有 14% 的提升，且该算法可以进行并行化处理。

Abstract

multilingual end-to-end automatic speech recognition models are attractive due to its simplicity in training and deployment. Recent work o

multilingual automatic speech recognition deliberation transformer layers training

发现论文，激发创造

基于决策模型的双通道端到端语音识别

本篇文章探讨了使用 deliberation network 既关注声学特征又关注第一步文本假说的方法来提高两步叠加模型在 ASR 中性能的优化，经过 Google Voice Search 的比较实验，正确率提高了 12%（相对于 LAS rescoring），在专有名词测试集上，提高了 23%。与传统大模型相比，最好的模型在 VS 上表现要好 21%。

Mar, 2020

通过仅文本和半监督训练改善审议

通过使用文本数据和半监督训练，结合基于 Transformer 的双向编码器表示和文本到语音解码器以及半监督训练，实现了多项任务中 4% 至 12% 的 WER 降低，并比最先进的语言模型（LM）缩减的 Deliberation 模型相比降低了 11% 的 Google Voice 搜索 WER，达到了与最先进的 LM 重评分器相当的人类评估结果。

Jun, 2022

PRoDeliberation：面向端到端口语理解的并行强化沟通

Spoken Language Understanding (SLU) 的关键组成部分是将语音转化为语义分析，以便进行任务执行。本研究介绍了 PRoDeliberation，一种利用基于连接主义时间分类的解码策略和降噪目标来训练稳健的非自回归思考模型的新方法。我们展示了 PRoDeliberation 实现了并行解码的延迟降低（比自回归模型提高 2-10 倍），同时保持了修正自回归思考系统的自动语音识别（ASR）误识别的能力。此外，我们进一步展示了降噪训练的设计使得 PRoDeliberation 能够克服小型 ASR 设备的限制，并对系统的每个组件的必要性进行了分析。

Jun, 2024

面向设备的语音理解协商模型

本文提出了一种新颖的基于推理的端到端（E2E）口语语音理解（SLU）方法，通过在自动语音识别（ASR）的文本和音频嵌入上进行条件控制，流式传输的 ASR 模型产生第一步的假设并由第二步的自然语言理解（NLU）组件生成语义解析。

Apr, 2022

针对大规模多语言 ASR 的端到端模型扩展

本篇研究旨在研究 15 种任务下，训练语言模型的容量瓶颈，并发现通过增加模型参数，添加深度，以及使用大型编码器等方法可以增加训练效率。

Apr, 2021

70 种语言的大规模多语音识别：分词、架构、泛化能力

本文研究了 70 种语言的大规模多语种 ASR 模型，并通过优化多重嵌入和输出模型的标记化策略，相对于单一语种模型，实现了 13.9%-15.6% 的平均 WER 改进，并展示了其泛化性和零样本学习能力在 Multilingual Librispeech 上高达 9.5% 的 WER 表现。

Nov, 2022

基于流式端到端模型的大规模多语言语音识别

本文介绍了一种使用条件向量和针对语言的适配器层结合的多语言端到端模型，取得了比单语言模型和传统模型都更低的语音识别误差率。

Sep, 2019

一种基于审慎的联合声音和文本解码器

提出一种新的两阶段端到端的语音识别模型，通过训练配对数据和未配对文本数据的组合来提高 ASR 性能，称为 Deliberation-JATD，它结合了 Deliberation 的拼写校正能力和 JATD 的未配对文本数据使用，实现了在多个测试集上的显著提高，特别是在稀有词汇方面，相对降低了词误率 12% 至 22.5%。同时该模型不需要增加模型大小或多阶段训练，成为一种高效的适用于设备的候选模型。

Mar, 2023

工业级多语种自动语音识别的解剖

描述了 AssemblyAI 的工业规模自动语音识别（ASR）系统的结构和性能优势，包括模型架构、词错误率、代码切换能力等关键方面。

Apr, 2024

可扩展的多语料神经语言模型用于 ASR

通过从异构语料库中训练神经语言模型、限制时延影响和处理第二遍修正器中的个性化偏差等挑战，本文在第二遍 n-best rescoring 框架中使用神经 LM，实现了 6.2% 的相对 WER 降低，而延迟增加很小。

Jul, 2019