Mar, 2024

使用语言模型的语言切换语音识别:古吉拉特英语

TL;DR通过条件化变换器层上的语言 ID,我们提出了两种引入语言特定参数和可解释性以及实现辅助性的时间损失方法,以改进端到端自动语音识别模型的性能。尽管无法显著减少词错误率,但我们的方法在通过仅仅的口语数据预测正确语言方面表现出潜力。我们通过在序列中删除语言 ID 来引入语言预测的正则化,有助于对齐长重复的输出序列。