神经声学到词模型的模块化训练对于大词汇连续语音识别的应用
利用预训练语音表示模型与大型语言模型(LLM)的集成,通过以语音表示作为语音提示,自动逐步生成文本标记,以利用 LLM 提供的广博知识,从而实现端到端的自动语音识别(ASR)模型,该模型还可结合推理优化和参数高效领域适应等关键技术,实现与现代端到端 ASR 模型相媲美的性能。
Dec, 2023
介绍了一个配方来训练一个 A2W 模型,以缩小与常规模型的差距,并呈现了一个联合单词 - 字符 A2W 模型,以提供富有意义的输出。
Dec, 2017
该研究论文介绍了端到端自动语音识别模型的分类和改进,讨论了它们对传统隐马尔科夫模型的影响,涵盖了模型、训练、解码和外部语言模型集成等各个方面,同时讨论了性能和部署机会以及未来的发展前景。
Mar, 2023
近年来,由于转换器等深度学习架构的进展,端到端(E2E)自动语音识别(ASR)模型的演变令人瞩目。在 E2E 系统的基础上,研究人员通过使用音素模型对 E2E 模型的 N 个最佳假设进行重新评分,实现了相当大的准确性提升。我们研究了驱动这些改进的潜在机制,并提出了一种高效的联合训练方法,其中 E2E 模型与多样的建模单元联合训练。这种方法不仅使音素和字素模型的优势得到了衔接,还揭示出以这些多样的建模单元协同方式使用可以显著提高模型的准确性。我们的发现为在开发更可靠准确的 ASR 系统时,异构建模单元的最佳整合提供了新的见解。
Jun, 2024
最近在深度学习和自动语音识别(ASR)方面的进展使得端到端(E2E)ASR 系统成为可能,并且将准确性提升到一个新的水平。我们提出将外部的 AM 整合到 E2E 系统中,以更好地解决领域不匹配问题,并取得了显著的词错误率降低,尤其在增强命名实体识别方面效果明显。
Oct, 2023
提出了一种增强对 ASR 错误鲁棒性的新型端到端(E2E)口语理解(SLU)系统,通过基于 ASR 假设的估计模态置信度融合音频和文本表示,来解决 E2E SLU 系统在文本表示质量低时的问题,并通过在 STOP 数据集上的准确性改进和分析来证明我们的方法的有效性。
Jul, 2023
通过引入 “开关” 连接,将语音识别(ASR)和端点探测(EP)训练为单一的端对端(E2E)多任务模型,并利用 ASR 音频编码器的信息来提高 EP 质量,以此来减少延迟并改善连续语音识别的识别率。
Nov, 2022
本文针对上下文语音识别难以适应 E2E 自动语音识别的问题,提出了使用基于类别的语言模型及高效微调令牌传递解码器来提高性能。实验表明,该方法在不改变解码超参数的情况下,有效降低了上下文语音识别的字词错误率,并不影响普通语音识别的表现。
Dec, 2018