Mar, 2023
跨语言视觉言语表征学习
Learning Cross-lingual Visual Speech Representations
Andreas Zinonos, Alexandros Haliassos, Pingchuan Ma, Stavros Petridis, Maja Pantic
TL;DR本文探讨了跨语言自监督视觉表示学习,使用 Raw Audio-Visual Speech Encoders(RAVEn)框架对无标注的多语言数据进行预训练,然后用标记的转录 fine-tune 视觉模型,实验证明多语言模型优于单语言模型,多语言胜过英文预训练,使用相似的语言效果更好,而无标签的语言进行精调与使用目标语言在预训练集上进行竞争。