本文提出一种简单且有效的视觉提示方法,用于将预训练模型适应下游识别任务。并重新引入了两种常用技术,即输入多样性和梯度归一化。该方法在 12 个流行的分类数据集上创造了 82.8%的平均准确率的记录,并提供了代码。
Dec, 2022
本研究提出一个新的模型 Prompt-Adapter,将预训练的提示调整与高效自适应网络相结合,用于高效的视觉 - 语言模型适应过程,超过公共数据集中少量数据情况下的现有方法,在此基础上,探讨了多任务预训练初始化与 prompt tuning 相结合的思想。
Mar, 2023
视觉语言模型通过大规模训练数据学习了一种通用的文本 - 图像嵌入。通过少量样本的提示调整,可以将视觉语言模型适应到新的分类任务中。我们发现,这种提示调整过程对标签噪声非常稳健,且具有鲁棒性。
Jul, 2023
提出了基于提示分布学习的方法,从而通过有效地适应先前训练的视觉 - 语言模型来处理下游的识别任务,该方法不仅从少量样本中学习低偏差的提示,而且还捕获多种提示的分布以处理不同的视觉表示。
May, 2022
该研究提出了一种文本生成图像的自适应提示适配框架,该框架使用预训练语言模型进行有监督的微调,再使用强化学习探索更好的提示,通过奖励函数鼓励策略生成更具美感的图像,实验结果表明,自适应提示适配方法优于手动人工优化提示工程,预训练检查点已经公开发布。
通过在 Continual Learning 中引入 Prompt-tuning 方法,以更稳定的选择策略和适应机制,提出了一种能够优于最先进的方法的新模型,即使在与预训练模型存在显著领域差异的数据集上也适用。
Mar, 2024
我们研究了视觉提示在强大源模型下的性能表现,并提出了一种名为 Prompt Boundary Loose (PBL) 的新技术来有效减轻在标准准确性上的次优结果,同时使用强大模型作为源模型不会丧失(甚至明显改善)其对抗性鲁棒性。在多个数据集上的广泛实验证明了我们发现的泛用性,并展示了我们提出方法的显著优势。
Nov, 2023
本文通过在测试时间给定新任务的输入输出图像样例及一个新的输入图像,自动产生与这些样例一致的输出图像的方式,探讨了如何在没有特定任务的微调或任何模型修改的情况下,将预训练的视觉模型适应于新的下游任务,并证明了将图像修补算法训练在正确的数据上的效果。
Sep, 2022
本文提出一种叫做上下文提示学习的框架,用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示,通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。
本研究提出一种无监督的精调框架,用于快速和直接地向未标记的目标数据进行深度学习模型的预训练,并在图像分类、情感分析和自然语言推理任务中实现了持续的改进。
Apr, 2023