基于决策模型的双通道端到端语音识别

Mar, 2020

基于决策模型的双通道端到端语音识别

Deliberation Model Based Two-Pass End-to-End Speech Recognition

Ke Hu, Tara N. Sainath, Ruoming Pang, Rohit Prabhavalkar

TL;DR本篇文章探讨了使用 deliberation network 既关注声学特征又关注第一步文本假说的方法来提高两步叠加模型在 ASR 中性能的优化，经过 Google Voice Search 的比较实验，正确率提高了 12%（相对于 LAS rescoring），在专有名词测试集上，提高了 23%。与传统大模型相比，最好的模型在 VS 上表现要好 21%。

Abstract

End-to-end (E2E) models have made rapid progress in automatic speech recognition (ASR) and perform competitively relative to conventional models. To further improve the quality, a two-pass model has been proposed to rescore streamed hypotheses using the non-streaming listen, attend and spell<

end-to-end model automatic speech recognition listen, attend and spell deliberation network google voice search

发现论文，激发创造

两遍端到端语音识别

本研究旨在加入 Listen, Attend and Spell 模型作为第二步流程，从而将端到端流式模型的性能提高至与传统语音识别系统相当，同时也满足计算和响应延迟等约束条件。

Aug, 2019

面向设备的语音理解协商模型

本文提出了一种新颖的基于推理的端到端（E2E）口语语音理解（SLU）方法，通过在自动语音识别（ASR）的文本和音频嵌入上进行条件控制，流式传输的 ASR 模型产生第一步的假设并由第二步的自然语言理解（NLU）组件生成语义解析。

Apr, 2022

一种超越服务器传统模型质量和延迟的流式设备端到端模型

本文提出了一种基于 RNN-T 模型的识别模型以及 LAS rescorer 模型，不仅在精度上，而且在延迟方面超越了传统模型，并发现 RNN-T+LAS 模型相比于传统模型在精度和延迟之间更好的权衡，例如，在相同的延迟下，RNN-T+LAS 相对识别准确率提高了 8％，模型尺寸也缩小了 400 多倍。

Mar, 2020

多语言 ASR 的协商扩展

本文研究了基于 Transformer 模型的多语言自动语音识别模型，提出了一种多语言的反推算法用于提高模型的识别能力，实验结果显示，相较于单语言算法，该算法的识别误差平均降低了 4%，在某些语言上甚至有 14% 的提升，且该算法可以进行并行化处理。

Oct, 2022

基于关注机制端到端语音识别的编码器比较：独立识别模式与重打分模式

本文研究了基于注意力机制的端到端语音识别模型在 Flipkart 语音搜索任务的应用，使用编码器 - 解码器 LAS 架构实现非流式和流式模型并比较它们的性能和延迟要求，结果表明变压器模型具有可接受的词错误率和最低延迟要求，在第二次 LAS 二次得分中相对 WER 以 5ms 以内的延迟开销提高 16％左右，此外，观察到在第二次得分模式下，所有编码器提供的好处相似，而性能的差异则在独立文本生成模式下更为突出。

Jun, 2022

高速准确流式端到端自动语音识别

本文提出了使用延迟惩罚技巧和最小词错误率训练技术来减少端到端模型延迟以提高其质量的方法，并在语音识别方面展示出重要改进。

Apr, 2020

基于类语言模型和令牌传递解码器的端到端语境语音识别

本文针对上下文语音识别难以适应 E2E 自动语音识别的问题，提出了使用基于类别的语言模型及高效微调令牌传递解码器来提高性能。实验表明，该方法在不改变解码超参数的情况下，有效降低了上下文语音识别的字词错误率，并不影响普通语音识别的表现。

Dec, 2018

双通路低延迟端到端口语理解

本研究利用内部预训练的语言模型构建强大的语义表示，使用 2 段 SLU 系统，结合语义和语音特征进行高质量语音识别，以提高用户体验和降低延迟。

Jul, 2022

端到端语音识别综述

该研究论文介绍了端到端自动语音识别模型的分类和改进，讨论了它们对传统隐马尔科夫模型的影响，涵盖了模型、训练、解码和外部语言模型集成等各个方面，同时讨论了性能和部署机会以及未来的发展前景。

Mar, 2023

语音识别统一流式和非流式两遍端到端模型

本文提出了一种新颖的两步方法，用于将流式和非流式端到端（E2E）语音识别统一到单个模型中，该模型采用混合 CTC /attention 架构，在编码器的 conformer 层进行修改，并且在推理时，CTC 解码器以流式方式生成 n 个最佳假设，然后通过注意力解码器进行重评分以得到最终结果，并且在 AISHELL-1 测试集上，基于提出的方法的统一模型相对于标准的非流式 transformer，实现了 5.60％的相对字符错误率（CER）降低，在流式 ASR 系统中实现了 640ms 的延迟。

Dec, 2020