ACLJun, 2024

关于语音基础模型在口语语言理解中的评估

TL;DR通过对多个受监督和自监督 SFMs 进行广泛评估,我们发现,尽管受监督的 SFMs 在语音识别数据上已经进行了预训练(带有标签),但并不总是表现优于自监督的 SFMs;后者在 SLUE 的序列生成任务上往往至少与受监督的 SFMs 表现一样出色,有时甚至更好。对于大多数任务来说,复杂预测头的性能最佳,尽管会增加推理时间。我们还引入了一个开源工具包和性能排行榜 SLUE-PERB,用于这些任务和建模策略。