Feb, 2023

AV-data2vec:具有语境目标表示的自监督学习音视频语音表征

TL;DR本文介绍了一个名为AV-data2vec的模型,该模型利用预测上下文表示来构建音频-视觉表示,可以结合音频和视频来提高语音识别性能,相比现有方法,在大多数情况下,AV-data2vec的表现都更好。