Feb, 2023

基于语音库差异的无监督数据选择在 ASR 中的应用

TL;DR本研究提出了一种基于语音语料库分歧的无监督目标感知数据选择方法,使用自监督 Hubert 模型将语音语料库离散化为标签序列,计算 N-gram 概率分布,并计算 N-gram 之间的 KL 散度作为 SCD,从而选择与目标语料库具有最小 SCD 的子集进行注释和训练。与以往的数据选择方法相比,SCD 数据选择方法可以关注更多的声学细节并保证所选集的多样性。在 Common Voice 的不同口音上进行评估,实验结果表明,所提出的 SCD 数据选择方法可以实现 14.8% 的相对改进,与有监督的选择结果相当或甚至更好。