神经声学到词模型的模块化训练对于大词汇连续语音识别的应用

Mar, 2018

神经声学到词模型的模块化训练对于大词汇连续语音识别的应用

On Modular Training of Neural Acoustics-to-Word Model for LVCSR

Zhehuai Chen, Qi Liu, Hao Li, Kai Yu

TL;DR此研究提出了一种新颖的模块化培训框架，用于分别训练神经声学和语言模型，并在解码阶段仍执行端到端推理。

Abstract

End-to-end (E2E) automatic speech recognition (ASR) systems directly map acoustics to words using a unified model. Previous works mostly focus on E2E training a single model which integrates acoustic and language model into a whole. Although E2E training benefits from →

automatic speech recognition neural acoustic model phoneme-to-word model sequence modeling acoustics-to-word model

发现论文，激发创造

基于流式端到端模型的大规模多语言语音识别

本文介绍了一种使用条件向量和针对语言的适配器层结合的多语言端到端模型，取得了比单语言模型和传统模型都更低的语音识别误差率。

Sep, 2019

基于预训练语音和语言模型的端到端语音识别整合

利用预训练语音表示模型与大型语言模型（LLM）的集成，通过以语音表示作为语音提示，自动逐步生成文本标记，以利用 LLM 提供的广博知识，从而实现端到端的自动语音识别（ASR）模型，该模型还可结合推理优化和参数高效领域适应等关键技术，实现与现代端到端 ASR 模型相媲美的性能。

Dec, 2023

构建英语会话语音识别的具有竞争力的直接声学到单词模型

介绍了一个配方来训练一个 A2W 模型，以缩小与常规模型的差距，并呈现了一个联合单词 - 字符 A2W 模型，以提供富有意义的输出。

Dec, 2017

端到端语音识别综述

该研究论文介绍了端到端自动语音识别模型的分类和改进，讨论了它们对传统隐马尔科夫模型的影响，涵盖了模型、训练、解码和外部语言模型集成等各个方面，同时讨论了性能和部署机会以及未来的发展前景。

Mar, 2023

提升基于 CTC 的语音识别的多样建模单元

近年来，由于转换器等深度学习架构的进展，端到端（E2E）自动语音识别（ASR）模型的演变令人瞩目。在 E2E 系统的基础上，研究人员通过使用音素模型对 E2E 模型的 N 个最佳假设进行重新评分，实现了相当大的准确性提升。我们研究了驱动这些改进的潜在机制，并提出了一种高效的联合训练方法，其中 E2E 模型与多样的建模单元联合训练。这种方法不仅使音素和字素模型的优势得到了衔接，还揭示出以这些多样的建模单元协同方式使用可以显著提高模型的准确性。我们的发现为在开发更可靠准确的 ASR 系统时，异构建模单元的最佳整合提供了新的见解。

Jun, 2024

终端到终端音频识别的声学模型融合

最近在深度学习和自动语音识别（ASR）方面的进展使得端到端（E2E）ASR 系统成为可能，并且将准确性提升到一个新的水平。我们提出将外部的 AM 整合到 E2E 系统中，以更好地解决领域不匹配问题，并取得了显著的词错误率降低，尤其在增强命名实体识别方面效果明显。

Oct, 2023

使用流式端到端模型进行长篇语音识别

通过多样化训练数据以及 LSTM 状态操作模拟长形音频，可以增强端到端语音识别模型对未知领域数据的泛化能力。

Oct, 2019

模态可信度感知的鲁棒端到端口语理解训练

提出了一种增强对 ASR 错误鲁棒性的新型端到端（E2E）口语理解（SLU）系统，通过基于 ASR 假设的估计模态置信度融合音频和文本表示，来解决 E2E SLU 系统在文本表示质量低时的问题，并通过在 STOP 数据集上的准确性改进和分析来证明我们的方法的有效性。

Jul, 2023

快速高效语音系统统一的端到端语音识别和端点检测

通过引入 “开关” 连接，将语音识别（ASR）和端点探测（EP）训练为单一的端对端（E2E）多任务模型，并利用 ASR 音频编码器的信息来提高 EP 质量，以此来减少延迟并改善连续语音识别的识别率。

Nov, 2022

基于类语言模型和令牌传递解码器的端到端语境语音识别

本文针对上下文语音识别难以适应 E2E 自动语音识别的问题，提出了使用基于类别的语言模型及高效微调令牌传递解码器来提高性能。实验表明，该方法在不改变解码超参数的情况下，有效降低了上下文语音识别的字词错误率，并不影响普通语音识别的表现。

Dec, 2018