Oct, 2023

语音的自监督模型推断通用的发音机制

TL;DR通过研究自监督学习模型,本文展示了模型对语音内部表征与不同方面的关联,以及模型将声学信息转化为语音信号基础的原因动力学的能力,同时发现这种抽象几乎在所有语言中都有重叠,尤其喜欢同一音韵系统的语言。此外,研究还表明使用简单仿射变换,声学到语音的反演能力可以跨发音者、性别、语言和方言传递,显示了这一属性的普适性。这些结果揭示了自监督学习模型内部机制,对其卓越性能至关重要,同时为可解释性和基于语音科学的语言不可知通用语音工程模型开辟了新的方向。