Dec, 2023

口语语言识别的生成语言表示

TL;DR探索利用 Whisper 模型的解码器网络通过其生成机制提取语言特征来提高 LID 任务中的分类准确性。通过基于语言嵌入方法和直接优化 LID 输出的两种策略,在 MLS、VoxLingua107 和 CommonVoice 等大规模多语言数据集上进行实验以验证我们的方法的有效性。实验结果表明该方法在 LID 任务的领域内和领域外数据集上均具有良好效果。