关键词multilingual image-text retrieval
搜索结果 - 2
- AAAI在 CLIP 中通过持续语言学习拥抱语言包容性和多样性
通过连续语言学习 (CL) 扩展视觉 - 语言预训练模型 (VL-PTMs) 的语言能力,并提出了 CLL-CLIP 模型,其通过仅训练标记嵌入来改善内存稳定性,并通过跨模态和跨语言目标进行优化以学习图像和多语种文本之间的对齐关系,实验证明 - UC2: 通用跨语言跨模态视觉语言预训练
UC2 是第一个基于机器翻译增强的框架,用于跨语言跨模态表示学习。我们扩充了现有的只有英语的数据集,通过机器翻译引入了其他语言的图像标题,然后将标准的 Masked Language Modeling 和 Image-Text Matchi