ICLRDec, 2022

从原始数据中联合学习视觉和听觉语音表征

TL;DRRAVEn 是利用自主学习方法联合学习视觉和听觉语音表征的一种多模态方法,其预训练目标涉及编码掩码输入并预测由缓慢演化的动量编码器生成的文本内容。发现 RAVEn 在视觉语音识别(VSR)方面优于所有自主学习方法,并结合仅使用 30 小时标记数据的自训练方法甚至优于针对 90000 小时非公共数据训练的半监督方法。在 LRS3 低资源设置中,RAVEn 在听觉语音识别和 VSR 方面均取得了最新的结果。