May, 2023

视觉为基础的少样本词汇习得

TL;DR本文提出了一个视觉和语音相融合的模型,用于从仅有几个词 - 图像样本对中学习新单词及其视觉表示。我们的方法包括从大量未标记的语音和图像中,使用给定的词 - 图像示例对挖掘新的无监督词 - 图像训练对,并使用单词到图像的关注机制来确定词 - 图像相似性。新模型的性能比现有方法更好,且需要更少的样本数。