Mar, 2023

印地语作为第二语言:利用语义相似的样本改进基于视觉的语音

TL;DR本研究旨在从多语言角度探讨视觉引导语音模型(VGS)的学习。研究发现,将高资源语言的知识转化为低资源语言的知识可以提高跨模态检索任务中低资源语言的性能,对此,文章提出了两种方法:(1)使用强大的预训练高资源语言编码器和(2)使用语义相似的口语字幕。通过实验证明,这两种方法结合起来可以有效地使低资源语言的表现超越单语和双语对应物。