关键词language-image pre-training
搜索结果 - 8
- DreamLIP:长描述文本的语言 - 图像预训练
通过在大规模语言模型中生成详细描述的长标题,我们提出了一种动态采样子标题的方法,以在对比学习框架中构建多个正向对并使用分组损失进行自监督训练,实验证明该方法在多种下游任务上具有明显优势。
- 面向语言 - 图像预训练的居中掩蔽
我们介绍了用于语言 - 图像预训练的高斯掩模化 (GLIP) 技术,它是一种新颖、直接且有效的技术,在预训练视觉 - 语言模型期间屏蔽图像补丁。GLIP 基于快速语言 - 图像预训练 (FLIP),在训练 CLIP 模型时随机屏蔽图像补丁。 - PAPERCLIP: 将天文观测与自然语言关联的多模型
我们提出了一种名为 PAPERCLIP 的方法,使用神经网络模型将望远镜拍摄的天文观测与自然语言进行关联,通过从预训练的对比语言 - 图像预训练(CLIP)模型微调成功的观测提案摘要和相应的下游观测,可选择使用大型语言模型(LLM)来进行摘 - ELIP: 有效的语言图像预训练模型,减少视觉令牌
我们在有限的计算预算下,研究了高效的语言 - 图像预训练方法,提出了一种基于语言输出监督的视觉记号剪枝和合并方法。我们的实验表明,通过在 12 个 ViT 层上去除约 30% 的视觉记号,我们的方法能够在各种下游任务中保持与基准模型相当的性 - PLIP: 人物表示学习的语言图像预训练
该研究提出了一种新的预训练框架用于人物表征学习,名为 PLIP,其中包括三个预文本任务:图像着色、属性预测和视觉 - 语言匹配,在一个新的大规模人物数据集 SYNTH-PEDES 上对其进行了评估并取得了优于先前方法的效果。
- 视觉语言模型中思维链路提示调优
本文提出了一种基于连锁式思维提示调整的视觉语言建模方法,经过广泛的实验验证,我们的方法在图像分类任务中的泛化能力更强,在单个数据集之外具有更强的可转移性和更强的领域泛化性能,而且在需要更多推理能力的图像文本检索和视觉问答方面表现更好。
- AAAINLIP: 噪声鲁棒性语言 - 图像预训练
本文提出了一种基于噪声抵抗的语言 - 图像预训练框架(NLIP),通过噪音协调和噪音补全两种方案来自动稳定预训练,以更有效地减轻图像文本预训练期间的常见噪声影响。通过协同优化噪音协调和噪音补全方案,NLIP 在零样本分类、MSCOCO 图像 - ReCo: 零样本迁移的检索和共同分割
本文提出了一种将语言 - 图像预训练模型(如 CLIP)的检索能力与无监督图像分割方法结合的方法,称为 Retrieve and Co-segment(ReCo)。该方法可构建语义分割模型,无需像素级别的标注,具有词汇表中概念名称的预测方便