本文提出了一种黑盒方法 Linear Feature Alignment(LFA)实现预处理图像和文字特征对齐,无需访问模型权重、训练速度快、可用于有监督和无监督训练,甚至可以用于对齐单模型计算出的图像和文本特征。在 11 个图像和 2 个视频数据集上进行的广泛实验表明,我们的方法甚至可以超过软提示学习方法。
Apr, 2023
为了解决深度学习中少样本学习的挑战,我们提出了一个简单而有效的框架,专门设计用于利用文本信息和语言模型,通过学习可调的提示来显式地利用预训练的语言模型的零样本能力,并且直接将视觉特征和文本特征进行推断而无需复杂设计的融合模块,进一步运用自集成和蒸馏来增强这些组件,在四个广泛使用的少样本数据集上进行了大量实验证明我们的简单框架取得了令人印象深刻的结果,特别值得注意的是,在 1-shot 学习任务中,我们的分类准确率平均超过基准方法 3.0%。
Jan, 2024
近期的视觉 - 语言模型主要面临有限数据下的过拟合、灾难性遗忘以及视觉与语言之间的跨模态差距等挑战,本研究引入了一种参数高效的方法来解决这些问题,通过结合多模态提示学习和基于 Transformer 的映射网络,在预训练模型的冻结状态下实现。在几个视频问答基准测试中,我们的实验结果证明了我们的方法在性能和参数效率方面在零样本和少样本设置下的优越性。我们的代码可以通过该 https 网址获得。
Sep, 2023
通过多模态提示学习来提高图像和文本特征的对齐度,利用预训练的 CLIP 强大的泛化能力,引导模型在对抗性示例上增强鲁棒泛化能力,同时在干净示例上保持准确性。
May, 2024
通过学习稳健的文本提示来提高视觉语言模型的对抗攻击的鲁棒性,该方法被称为对抗提示调优(APT),通过简单地向提示中添加一个学习到的单词,可以显著提高准确性和鲁棒性(epsilon=4/255),平均分别提高 13% 和 8.5%。
Mar, 2024
本篇研究对几种最先进的小样本学习方法进行了广泛的研究,以评估它们对敌对扰动的鲁棒性,结果表明相对于完全微调模型,普通的 Few-shot 学习方法在面对敌对扰动时表现出显著的下降,但使用(i)用于提示的未标记数据和(ii)多个提示扭转了这种趋势,并且增加少量样本的例数和模型大小可以增加其鲁棒性。
Jun, 2023
利用生成对抗网络 (GANs) 想象从文本描述中无法见到的类别,生成目标类别的视觉特征,附加伪数据,使得零样本学习自然地转换为传统的分类问题,并提出视觉中心正则化以保持生成特征的跨类别区分能力。实验表明,该方法在基于文本的零样本学习的最大可用基准测试中始终优于现有技术水平。
Dec, 2017
本文提出了一种理论框架,以解释在零 / 少样本场景下提示学习的功效,我们进一步假设语言差异可以衡量提示的质量,并且通过基于 perplexity 的注释无关模板选择方法,使我们能够提前预测提示性能。
Sep, 2022
采用对抗训练来学习嵌入的子空间,同时最大化两个域之间的混淆并在语义上对齐它们,解决了少量有标签目标数据样本的深度模型的有监督域自适应问题。
Nov, 2017
通过引入 Adversarial Prompt Tuning (AdvPT) 技术,本研究旨在提升视觉 - 语言模型中图像编码器的对抗性鲁棒性,改善对抗攻击的脆弱性,并且结合现有的基于图像处理的防御技术,进一步提高其防御能力。
Nov, 2023