Oct, 2023

零资源混合语言音频基准测试:使用语音句对进行多种口语语言测试

TL;DR我们介绍了一个新的零资源代码切换语音基准,旨在直接评估自我监督语音编码器的代码切换能力。我们展示了一个以离散单元上的语言建模为基线系统,以演示如何以零资源的方式评估语音编码器的代码切换能力。我们的实验包括多种知名的语音编码器,包括 Wav2vec 2.0、HuBERT、XLSR 等。我们研究了预训练语言和模型大小对基准性能的影响。值得注意的是,尽管我们的结果表明,在代码切换场景中,具有多语言预训练的语音编码器(如 XLSR)优于单语变体(Wav2vec 2.0、HuBERT),但它们的代码切换语言能力仍有很大的改进空间。