Jun, 2024

利用 kNN-CTC 和门控单语数据存储改进零 - shot 中英混编自动语音识别

TL;DR我们提出了一种新颖的 kNN-CTC 基于代码切换 ASR 框架,它采用双语言数据存储和门控数据存储选择机制以减少噪音干扰。我们将此框架应用于先进的 CTC-based 模型,开发出一种先进的中英文代码切换 ASR 系统。广泛的实验证明了我们的门控数据存储机制在提高零 - shot 中英文代码切换 ASR 性能方面的卓越效果。