AAAIJan, 2024

在 CLIP 中通过持续语言学习拥抱语言包容性和多样性

TL;DR通过连续语言学习 (CL) 扩展视觉 - 语言预训练模型 (VL-PTMs) 的语言能力,并提出了 CLL-CLIP 模型,其通过仅训练标记嵌入来改善内存稳定性,并通过跨模态和跨语言目标进行优化以学习图像和多语种文本之间的对齐关系,实验证明该方法在多语言图像 - 文本检索性能上具有有效性。