通过视觉提示水印技术,在保护 VPaaS 开发者权益的同时,有效提高了效率、防止攻击,并在多种敌对操作下表现出鲁棒性。
May, 2024
本文提出了 BadPrompt 算法,用于进行基于触发模式的后门攻击,其可以攻击连续提示模型,我们在五个数据集和两个连续提示模型上进行了评估,并展示了 BadPrompt 有效地攻击连续提示的能力,同时在干净的测试集上保持高性能,在增量配置下较基线模型表现更好。
Nov, 2022
本文研究了视觉转换器结构中 Prompt 数量对微调效果和自注意力操作的影响。通过理论和实证分析,我们发现增加 Prompt 数量并不能带来线性的性能提升。为此,我们提出 Prompt Condensation 技术来防止 Prompt 数量过多导致的性能下降,实验证明我们的方法在维持准确度的同时能减少大约 70% 的 prompts 数量。
May, 2023
本研究提出了一种名为 ProAttack 的新方法,用于在不使用外部触发器的情况下基于提示执行干净标签的后门攻击,从而对模型引入有针对性的漏洞,该方法使用提示本身作为触发器,并确保正确标记给定的样本,可以提高后门攻击的隐蔽性。
通过对软标记以及对抗优化的使用,提出一种名为 PromptFix 的新型反后门策略,适用于自然语言处理模型中的少样本情景,并通过各种后门攻击实验证实了该方法的有效性以及在存在领域转移时的性能。
Jun, 2024
我们提出了虚拟提示注入(VPI)技术,用于调整指令的大型语言模型(LLM)。VPI 允许攻击者指定虚拟提示,在特定触发场景下引导模型行为,而无需显式地注入模型输入。我们通过污染模型的指令调整数据,演示了 VPI 的风险,并建议采用数据过滤作为一种有效的防御手段。
Jul, 2023
利用贝叶斯框架中的 Prompt 学习方法,通过建模数据相关先验,减轻少样本学习中的过拟合问题,提高提示信息对未知样例的适应性,并展示相对现有方法在基准数据集上显著性能改进的统计结果。
Jan, 2024
我们研究了视觉提示在强大源模型下的性能表现,并提出了一种名为 Prompt Boundary Loose (PBL) 的新技术来有效减轻在标准准确性上的次优结果,同时使用强大模型作为源模型不会丧失(甚至明显改善)其对抗性鲁棒性。在多个数据集上的广泛实验证明了我们发现的泛用性,并展示了我们提出方法的显著优势。
Nov, 2023
本文研究了基于提示的大语言模型存在的后门安全威胁,并提出了一种名为 POISONPROMPT 的新型后门攻击方法,实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性,该研究强调了进一步研究这一领域的重要性。
Oct, 2023
通过关键参数的优化和初始化,我们提出了一种改进的视觉提示调整方法,用于优化预训练模型在下游任务中的性能表现,并在大量实验证明该方法在自我监督预训练适应性上取得了显著的性能改进。
Feb, 2024