端到端语音识别综述
利用预训练语音表示模型与大型语言模型(LLM)的集成,通过以语音表示作为语音提示,自动逐步生成文本标记,以利用 LLM 提供的广博知识,从而实现端到端的自动语音识别(ASR)模型,该模型还可结合推理优化和参数高效领域适应等关键技术,实现与现代端到端 ASR 模型相媲美的性能。
Dec, 2023
本研究采用 E2E 模型中的混合 CTC-Attention 方法,并针对中文发音检测任务进行了输入扩充,使结果更加适合该任务。实验结果表明,与传统的混合 DNN-HMM 系统相比,该方法能够大大简化处理流程并显著提高性能。
May, 2020
最近在深度学习和自动语音识别(ASR)方面的进展使得端到端(E2E)ASR 系统成为可能,并且将准确性提升到一个新的水平。我们提出将外部的 AM 整合到 E2E 系统中,以更好地解决领域不匹配问题,并取得了显著的词错误率降低,尤其在增强命名实体识别方面效果明显。
Oct, 2023
本文分析了自动语音识别中使用的端到端神经网络模型的内部表示学习,对音素和字母、不同发音特征进行了比较,并发现不同特征在深度神经网络的不同层中的表示具有明显的一致性。
Jul, 2019
本文提出了一种多任务联合训练的端到端语音理解模型 “Audio-Text All-Task (AT-AT) Model”,该模型能够同时训练语音转文字、语音理解和文本理解任务,不仅可以在多个数据集上实现最优性能,还可用于零 - shot 端到端语音理解任务。
Dec, 2020
通过引入 “开关” 连接,将语音识别(ASR)和端点探测(EP)训练为单一的端对端(E2E)多任务模型,并利用 ASR 音频编码器的信息来提高 EP 质量,以此来减少延迟并改善连续语音识别的识别率。
Nov, 2022
本文针对上下文语音识别难以适应 E2E 自动语音识别的问题,提出了使用基于类别的语言模型及高效微调令牌传递解码器来提高性能。实验表明,该方法在不改变解码超参数的情况下,有效降低了上下文语音识别的字词错误率,并不影响普通语音识别的表现。
Dec, 2018
近年来,由于转换器等深度学习架构的进展,端到端(E2E)自动语音识别(ASR)模型的演变令人瞩目。在 E2E 系统的基础上,研究人员通过使用音素模型对 E2E 模型的 N 个最佳假设进行重新评分,实现了相当大的准确性提升。我们研究了驱动这些改进的潜在机制,并提出了一种高效的联合训练方法,其中 E2E 模型与多样的建模单元联合训练。这种方法不仅使音素和字素模型的优势得到了衔接,还揭示出以这些多样的建模单元协同方式使用可以显著提高模型的准确性。我们的发现为在开发更可靠准确的 ASR 系统时,异构建模单元的最佳整合提供了新的见解。
Jun, 2024