AV-data2vec：具有语境目标表示的自监督学习音视频语音表征

Feb, 2023

AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations

Jiachen Lian, Alexei Baevski, Wei-Ning Hsu, Michael Auli

TL;DR本文介绍了一个名为AV-data2vec的模型，该模型利用预测上下文表示来构建音频-视觉表示，可以结合音频和视频来提高语音识别性能，相比现有方法，在大多数情况下，AV-data2vec的表现都更好。

Abstract

self-supervision has shown great potential for audio-visual speech recognition by vastly reducing the amount of labeled data required to b