Mar, 2023

IPA-CLIP: 将音位预先设定集成到视觉和语言预先训练中

TL;DR本研究介绍了一种提取音素信息的方法并将其加入 Vision and Language 预训练模型 CLIP 中,以加强 CLIP 处理未知词汇的能力。评估显示,该模型在处理多模态检索任务时具有较好效果,并与人类发音相似性判断有较高相关性。