NLLB-CLIP – 在预算内训练高性能多语言图像检索模型
通过连续语言学习 (CL) 扩展视觉 - 语言预训练模型 (VL-PTMs) 的语言能力,并提出了 CLL-CLIP 模型,其通过仅训练标记嵌入来改善内存稳定性,并通过跨模态和跨语言目标进行优化以学习图像和多语种文本之间的对齐关系,实验证明该方法在多语言图像 - 文本检索性能上具有有效性。
Jan, 2024
此研究探讨了使用大规模预训练模型(CLIP 和 HuBERT)进行多语言语音图像检索的方法,并取得了比现有最新技术更好的非英语语音图像检索成果。
Nov, 2022
本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式,包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明,该方法在多个下游任务中实现了更高的性能。
Dec, 2023
在这项研究中,我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列,通过一种名为多模态增强训练的新颖且高效的训练方法,利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移,将额外的知识存储在增强数据集中而避免了训练时计算开销,从而实现了零样本分类和检索任务的新的最佳延迟 - 准确性权衡。
Nov, 2023
研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势,通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务,CLIP 显著优于现有的视觉编码器,并在多种视觉与语言任务中取得竞争或更好的结果,同时取得了 Visual Question Answering,Visual Entailment 和 V&L Navigation 等任务的新高峰。
Jul, 2021
通过利用机器翻译产生多语言数据来实现对预训练的多语言 LLM 的图像编码器的重新对准,从而在消费者硬件上使用少量训练数据来获得第一款多语言 Vision-LLM,与从头开始训练的大规模 Vision-LLM 相比表现出色。
Jul, 2023
我们介绍了一种新的图像预训练模型 Llip,它通过模拟可能与图像匹配的多样的标题来提升图像的描述能力,并通过条件化输入信息来生成更丰富的视觉表示,相较于 CLIP 等基线模型,在多项任务上都有更好的性能表现,包括零样本分类和零样本检索。
Apr, 2024
大型多模态模型 (LMMs) 在为盲人或低视力用户提供自动视觉辅助方面具有潜力。我们通过实证评估 CLIP,在零样本分类任务中测试了 25 个 CLIP 变体,发现其在盲人用户捕获的图像上的准确性平均低了 15 个百分点,原因是 CLIP 对图像内容、图像质量和文本内容的敏感性不足。通过对三个常见的预训练数据集进行文本分析,我们发现残疾内容很少被提及。我们还提供了三个示例,说明性能差异扩展到由 CLIP 支持的三个下游模型:OWL-ViT, CLIPSeg 和 DALL-E2。我们发现使用仅有 5 张图像进行少样本学习可以在某些情况下缓解 BLV 用户的 CLIP 的服务质量差异,我们还讨论了一系列可能的缓解措施。
Nov, 2023
本研究探讨使用大型语言模型作为文本编码器,在文本到图像生成中提高语言理解能力,并提出了一种高效三阶段训练流程以整合已有的文本到图像模型和大型语言模型,通过轻量级适配器实现快速训练,并证明实验结果在多语言和长输入环境下获得了优秀的图像生成质量。
May, 2024
这篇文章介绍了一个公共的数据集 LAION-400M,包含了 CLIP 过滤后的 4 亿对图片 - 文本配对、它们对应的 CLIP 嵌入以及 kNN 索引,能用于训练多模式语言视觉模型,进行零样本或少样本学习和迁移。
Nov, 2021