CapS-Adapter:基于标题的零射界多模适配器分类
本篇论文提出了一种利用键值缓存模型构建适配器的零训练方法 Tip-Adapter,来有效地增强 Contrastive Vision-Language Pre-training(CLIP)的适应能力,为少样本学习提供了一个计算资源高效的选择。实验证明,Tip-Adapter 在 11 个数据集上均有突出表现,并可以通过少量的模型微调达到 ImageNet 上的最优。
Jul, 2022
该论文提出了一种名为 Tip-Adapter 的基于 CLIP 的适配器模型,通过无需训练的键值缓存模型构建配适器权重,极大地提升了 CLIP 的少样本分类能力。
Nov, 2021
多场景和多语言的视觉描述生成中,我们提出了一种简单而有效的零样本方法 MultiCapCLIP,它可以在不需要标注视觉 - 描述对的情况下,为不同的场景和语言生成视觉描述,并且在四个基准测试和四种语言上得到了相对于最先进的零样本和弱监督方法分别为 4.8% 和 21.5% 的绝对改进。
Aug, 2023
本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter,通过在原训练模型上加入新特征层并进行残差式混合来实现,在各种视觉分类任务中表现优异,优于 context optimization
Oct, 2021
该论文提出了一种名为 DeCap 的简单框架来解决零 - shot 图片描述问题,通过引入轻量级的视觉感知语言解码器来满足对数据和计算效率的要求,并提出了一个训练 - free 机制来减少模态间差异。实验证明,DeCap 在典型的图像说明基准测试中表现优异。
Mar, 2023
通过 CapFSAR 框架,我们利用预训练的多模态基础模型的知识,从合成描述中提取视觉特征和相关文本嵌入,并设计了基于 Transformer 的视觉文本聚合模块,以在低样本情况下实现更全面的分类。在多个标准的少样本基准实验中,我们的 CapFSAR 方法表现优于现有方法,并达到了最先进的性能。
Oct, 2023
提出了一种新颖的记忆增强型零样本图像字幕生成框架(MeaCap),通过装备文本记忆并引入检索 - 过滤模块,使用基于记忆的视觉相关融合评分及关键词 - 句子语言模型,生成与图像高度一致、拥有更少幻觉和更多世界知识的以概念为中心的字幕;该框架在一系列零样本图像字幕设置中取得了最先进的性能。
Mar, 2024
该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法,通过使用多个关键模型来桥接视频和文本,并使用可学习的令牌来传递信息。在实验中,该方法在多个数据集上取得了与现有最先进方法相比的 4%至 20%的 CIDEr 主要评价指标的改进。
May, 2024
为了提供更高质量和更可扩展的多模态预训练数据,我们提出了 CapsFusion,一种先进的框架,利用大型语言模型从基于网络的图像文本对和合成字幕中巩固和完善信息。大量实验证明,CapsFusion 字幕在模型性能(例如,COCO 和 NoCaps 上的 CIDEr 分数提高了 18.8%和 18.3%)、样本效率(比基准计算需求少 11-16 倍)、世界知识深度和可扩展性方面展示出卓越的全面优势。这种有效性、效率和可扩展性优势使 CapsFusion 成为未来大规模多模态模型训练的有希望的候选者。
Oct, 2023
本文提出了一种名为 CALIP 的方法,通过一个无需参数的关注模块,在不增加额外的训练开销和数据需求的情况下提高 Contrastive Language-Image Pre-training 的零样本性能。
Sep, 2022