Jun, 2021

使用冻结语言模型的多模式小样本学习

TL;DR通过对齐图像和标题数据,我们训练一个视觉编码器将每个图像表示为一系列连续的嵌入,并使用预先训练的冻结语言模型来生成相应的标题,从而将这种少量样本学习能力转移至多模态设置。该系统是一种多模态少样本学习模型,具有学习各种新任务的惊人能力,如用只有少数几个样例进行视觉问答,或者利用外部知识。