一种基于审慎的联合声音和文本解码器

Mar, 2023

一种基于审慎的联合声音和文本解码器

A Deliberation-based Joint Acoustic and Text Decoder

Sepand Mavandadi, Tara N. Sainath, Ke Hu, Zelin Wu

TL;DR提出一种新的两阶段端到端的语音识别模型，通过训练配对数据和未配对文本数据的组合来提高 ASR 性能，称为 Deliberation-JATD，它结合了 Deliberation 的拼写校正能力和 JATD 的未配对文本数据使用，实现了在多个测试集上的显著提高，特别是在稀有词汇方面，相对降低了词误率 12% 至 22.5%。同时该模型不需要增加模型大小或多阶段训练，成为一种高效的适用于设备的候选模型。

Abstract

We propose a new two-pass e2e speech recognition model that improves ASR performance by training on a combination of paired data and unpaired text data. Previously, the joint acoustic and text decoder (JATD) has

e2e speech recognition text data deliberation-jatd word error rate on-device applications

发现论文，激发创造

通过仅文本和半监督训练改善审议

通过使用文本数据和半监督训练，结合基于 Transformer 的双向编码器表示和文本到语音解码器以及半监督训练，实现了多项任务中 4% 至 12% 的 WER 降低，并比最先进的语言模型（LM）缩减的 Deliberation 模型相比降低了 11% 的 Google Voice 搜索 WER，达到了与最先进的 LM 重评分器相当的人类评估结果。

Jun, 2022

使用统一的语音与文本编码器 - 解码器来改善 ASR

本研究利用外部文本数据提高自动语音识别的性能，探讨了一种方法，在共享解码器和编码器部分的集合中，联合训练自动语音识别和掩码语言模型。经实验验证，该方法在测试中取得了非常好的效果，耗时不增加。

Feb, 2022

基于决策模型的双通道端到端语音识别

本篇文章探讨了使用 deliberation network 既关注声学特征又关注第一步文本假说的方法来提高两步叠加模型在 ASR 中性能的优化，经过 Google Voice Search 的比较实验，正确率提高了 12%（相对于 LAS rescoring），在专有名词测试集上，提高了 23%。与传统大模型相比，最好的模型在 VS 上表现要好 21%。

Mar, 2020

编码器 - 解码器语音识别中的语言模型集成技术比较

本文通过对一系列过去的方法以及我们提出的某些方法进行比较，探讨如何使用未配对的文本数据来改进编码器 - 解码器模型以及方法的效果和数据集之间的关联。同时结果证实，使用未配对的文本跨越各种方法和数据集具有显著的益处，而 “浅层融合” 的方法在一些数据集上的表现优于其他方法，但在谷歌数据集上，“冷融合” 方法则表现更佳。

Jul, 2018

面向设备的语音理解协商模型

本文提出了一种新颖的基于推理的端到端（E2E）口语语音理解（SLU）方法，通过在自动语音识别（ASR）的文本和音频嵌入上进行条件控制，流式传输的 ASR 模型产生第一步的假设并由第二步的自然语言理解（NLU）组件生成语义解析。

Apr, 2022

基于混合注意力的编码器 - 解码器模型用于高效语言模型适应

提出了一种新的混合注意力编码器 - 解码器（HAED）语音识别模型，通过分离声学模型和语言模型，以保留传统混合自动语音识别系统的模块化，实现了对传统基于文本的语言模型自适应技术的使用，从而在相对于纯 AED 模型在领域外文本数据进行语言模型自适应时实现了 21% 的词错误率（WER）改进，并且在一般测试集上只有微小的词错误率（WER）退化。

Sep, 2023

通过声学和语义合作解码重新思考多模态视角下的语音识别

该论文提出了一种声学和语义协同解码器 ASRD，可以同时利用声学和语义特征来提高自动语音识别的性能。通过引入因果多模态屏蔽，可以防止在训练期间的信息泄漏，并且还提出了一种改良版的半监督 ASCD 来平衡准确性和计算成本。实验结果表明，ASRD 可以显著提高 ASR 的准确性。

May, 2023

多语言 ASR 的协商扩展

本文研究了基于 Transformer 模型的多语言自动语音识别模型，提出了一种多语言的反推算法用于提高模型的识别能力，实验结果显示，相较于单语言算法，该算法的识别误差平均降低了 4%，在某些语言上甚至有 14% 的提升，且该算法可以进行并行化处理。

Oct, 2022

4D ASR: CTC、Attention、Transducer 和 Mask-Predict 解码器的联合建模

本论文提出了四解码器联合建模 (4D) 的 CTC，关注机制，RNN-T 和掩码预测，旨在通过联合建模提高模型稳健性，在应用场景下轻松切换四个解码器，并通过一次解码方法进一步提高性能。

Dec, 2022

4D ASR: 联合波束搜索综合 CTC、注意力、转导和掩码预测解码器

我们提出了一种联合建模方案，通过多任务学习和三种新的单通道波束搜索算法，我们训练出的 4D 模型在端到端自动语音识别上取得了更好的性能，并超过了使用单个解码器的模型。

Jun, 2024