May, 2020

视觉自我监督是否提高情感识别的语音表征学习?

TL;DR本研究探究了面部重建的视觉自监督方法辅助音频表示学习,提出了适用于语音表示学习的仅音频的自监督方法,比较了多任务的视听自监督与单一方式的自监督方法,发现视听自监督对于学习在噪声环境下更具有鲁棒性的特征更有益。同时,本研究发现自监督学习可以胜过全监督学习并防止过拟合,通过情感识别、自然语言识别等测试表明该方法成功提高了语音特征学习的效果。