Mar, 2023

跨语言视觉言语表征学习

TL;DR本文探讨了跨语言自监督视觉表示学习,使用 Raw Audio-Visual Speech Encoders(RAVEn)框架对无标注的多语言数据进行预训练,然后用标记的转录 fine-tune 视觉模型,实验证明多语言模型优于单语言模型,多语言胜过英文预训练,使用相似的语言效果更好,而无标签的语言进行精调与使用目标语言在预训练集上进行竞争。