ICLRJan, 2022

基于掩码多模态聚类预测的音视频语音表征学习

TL;DRAV-HuBERT 是自监督学习框架,用于从视频、音频中学习音视双方言的表征,可用于口型阅读和语音识别任务。在 433 小时的公共数据集 LRS3 上,使用 AV-HuBERT 的自我训练,口型阅读错误率降低到 26.9%,使用相同的表征进行语音识别的性能提高了 40%相对减少至 1.3%。