Nov, 2023

通过多语言对比的语音音素预训练在任何语言中实现开放词汇关键词检测

TL;DR这篇论文介绍了一种包含 115 多种不同语系的细粒度音素转录的大规模多语言语音语料库。基于这个多语言数据集,我们提出了 CLAP-IPA,这是一种能够在语音信号和音素转录的关键词或任意短语之间进行开放词汇匹配的多语言音素语音对比嵌入模型。所提出的模型已在 97 种未见过的语言中的两个实地语音语料库上进行了测试,展示了跨语言的强大泛化能力。与基于文本的模型相比,使用音素作为建模单位比正字文本具有更好的跨语言泛化能力。