AAAIFeb, 2022

自监督语音表征学习:基于视觉辅助和屏蔽语言建模

TL;DR本研究基于最近提出的 FaST-VGS 模型,该模型是一种基于 Transformer 的模型,学习将原始语音波形与语义相关的图像相关联,同时引入了一种新颖的扩展模型 FaST-VGS +,该模型在多任务训练中学习了掩码语言建模目标和视觉基础目标。我们的研究在 ZeroSpeech 2021 Challenge 和 SUPERB benchmark 上表现强劲,几乎在 Lexical 任务上与最佳系统相媲美。