May, 2023
基于视觉绑定、自监督的语音模型中的音节发现和跨语言泛化
Syllable Discovery and Cross-Lingual Generalization in a Visually Grounded, Self-Supervised Speech Mode
Puyuan Peng, Shang-Wen Li, Okko Räsänen, Abdelrahman Mohamed, David Harwath
TL;DR本文提出了一种自我监督语音模型训练方法,可以自动检测语音中的音节边界并对同一音节进行聚类,该模型不仅在英语上表现优异且能够泛化到其他语言,实现了零样本学习,且在四种语言上实现了词分割任务的零样本迁移,胜过了之前的最佳成果。