通过图像适应提示调整的复合文本引导
我们提出了一个跨模态的动态提示调整方法,使用全局 - 局部注意机制对视频进行建模,通过仅调整 0.67%的参数,我们的方法在 MSR-VTT,VATEX,LSMDC 和 ActivityNet 数据集上优于或与完全微调方法相当。
Jan, 2024
我们展示了如何使用 GPT-4 生成视觉描述性文本,并说明如何将其用于适应 CLIP 进行下游任务。与 CLIP 的默认提示相比,在专门的细粒度数据集上,我们在 0-shot 传输准确性方面取得了显著的改进。我们还设计了一个简单的 few-shot 适配器,学习选择最佳的句子来构建具有优越性能的可推广分类器。
Jul, 2023
通过利用来自大型语言模型(LLM)的类别描述,我们引入了一种基于部分级别描述引导的图像和文本特征对齐方法,以构建更加可泛化的提示,并通过在 11 个基准数据集上的全面实验验证,超越了现有方法,取得了实质性的改进。
May, 2024
本研究提出了一种使用仅文本数据学习通用提示的方法,通过将 LLL(large language models)中的上下文数据映射到学习到的提示中,实现了零样本转移,并在 4 个基准测试上进行了广泛评估。
Jan, 2024
在此研究中,我们研究了一种基于文本的视觉与语言模型训练方法,并探索了如何根据下游任务的特点从大型语言模型中采样文本数据,以显著提升视觉识别性能。与先前方法相比,我们展示了达 (交) 领域特定适应的性能提高达 8.4%,精细化识别提高达 8.7%,零标记分类整体平均提高达 3.1%。
Sep, 2023
本文提出一种叫做测试时提示调整 (TPT) 的方法,可在单个测试样本上实时学习适应性提示,优化提前提供的 CLIP 模型动态调整提示, 以最小化模型预测时的不确定度,提高 CLIP 模型的泛化能力。实验结果表明,TPT 方法在自然情况下的 zero-shot top-1 准确率比以往方法的提升 3.6%,并达到了使用额外培训数据的最新先进方法的性能水平。
Sep, 2022
本研究提出了 Prompt-aligned Gradient 算法(ProGrad)来防止针对 Prompt 的微调忘记从 VLM 学到的一般知识,并通过实验证明其比现有方法具有更强的 few-shot 泛化能力。
May, 2022
通过引入 Adversarial Prompt Tuning (AdvPT) 技术,本研究旨在提升视觉 - 语言模型中图像编码器的对抗性鲁棒性,改善对抗攻击的脆弱性,并且结合现有的基于图像处理的防御技术,进一步提高其防御能力。
Nov, 2023
通过设计两种类型的知识感知提示,离散提示和学习连续提示,以及视觉编码器的适应头部,实现针对视觉 - 语言模型的知识感知提示调整(KAPT)框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的 CoCoOp 方法相比,KAPT 在新类别中获得了 3.22% 的绝对增益和 2.57% 的调和均值增益。
Aug, 2023
利用双重对齐提示调整 (DuAl-PT),结合大规模视觉语言模型和预训练大型语言模型,在少样本识别和基于新样本泛化上取得了卓越的性能,为未来研究提供了强有力的基准。
Sep, 2023