ICMLJul, 2020

通过联合视听自监督从原始音频中学习语音表示

TL;DR该研究提出了一种通过结合音频自监督和视觉自监督来训练原始音频编码器生成说话者面部图像的自监督语音表示方法,从而为音频视觉语音的自监督学习提供了潜力。