本文提出了一种无监督提示学习(UPL)方法,以避免提示工程并同时提高类似CLIP的视觉语言模型的传递性能。该方法实验结果显示,在ImageNet以及其他10个数据集上,与原始CLIP相比,UPL具有更优秀的传输表现,并且增强版的UPL在大多数数据集上甚至能够与8-shot CoOp和8-shot TIP-Adapter竞争。
Apr, 2022
该论文提出了基于prompt调节(Prompt tuning,Pro-tuning)的方法来替代fine-tuning,适应于各种冻结视觉模型到不同的下游视觉任务。实验结果表明,这种方法在图像分类和密集预测任务方面表现优于fine-tuning。
Jul, 2022
本文提出一种叫做测试时提示调整 (TPT) 的方法,可在单个测试样本上实时学习适应性提示,优化提前提供的CLIP模型动态调整提示, 以最小化模型预测时的不确定度,提高CLIP模型的泛化能力。实验结果表明,TPT方法在自然情况下的zero-shot top-1准确率比以往方法的提升3.6%,并达到了使用额外培训数据的最新先进方法的性能水平。
Sep, 2022
研究使用变分推理解决Empirical Risk Minimization在prompt learning中的分布偏移问题,在15个用例中通过Bayesian prompt learning实现了更好的泛化性能。
Oct, 2022
本文提出了一种多任务视觉语言提示调整(MVLPT)方法,将跨任务知识纳入提示调整算法中,其结果在 20 个视觉任务上的表现优于现有方法。
Nov, 2022
通过设计两种类型的知识感知提示,离散提示和学习连续提示,以及视觉编码器的适应头部,实现针对视觉-语言模型的知识感知提示调整(KAPT)框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的CoCoOp方法相比,KAPT在新类别中获得了3.22%的绝对增益和2.57%的调和均值增益。
Aug, 2023
利用双重对齐提示调整(DuAl-PT),结合大规模视觉语言模型和预训练大型语言模型,在少样本识别和基于新样本泛化上取得了卓越的性能,为未来研究提供了强有力的基准。
Sep, 2023
通过重新参数化低秩提示(RLP),我们设计了一种新型提示,用于高效和有效地适应基于视觉和语言的模型,并显著增加了传统提示调整的平均下游准确性,仅使用0.5K的参数。
Dec, 2023
通过利用来自大型语言模型(LLM)的类别描述,我们引入了一种基于部分级别描述引导的图像和文本特征对齐方法,以构建更加可泛化的提示,并通过在 11 个基准数据集上的全面实验验证,超越了现有方法,取得了实质性的改进。
May, 2024
本研究解决了视觉语言模型提示调整中手工和模板化提示缺乏通用性的问题。通过将软提示与手工提示视为文本模态的双重视角,并最大化它们的互信息,研究提出了一种新的方法来增强任务特定信息和一般语义信息的结合。此外,引入的视觉模态类增广技术显著提升了对未见类的鲁棒性。该方法在多个基准测试中的评估结果表明,其在特定任务性能和一般能力方面均具竞争力。
Oct, 2024