说得太多:在标记限制下攻击大型语言模型
通过细粒度的实验,我们展示了在大语言模型的精调阶段仅仅使用总数据样本的 1% 即可成功地对大语言模型进行毒化,这是针对自然语言生成任务进行的首次系统性理解并考虑了多种触发方式和攻击设置的毒化攻击。
Dec, 2023
本研究表明对 instruction-tuned LMs 输入恶意抽样将导致模型预测失准,大型 LMs 在此方面更易受攻击,而基于数据过滤或减少模型容量的防御措施提供的保护有限,同时会降低测试准确性。
May, 2023
通过设计一种新的数据污染攻击,本研究进一步识别了 LLMs 中的安全风险,并提出了一种梯度引导的后门触发器学习方法,以高效地识别对手的触发器,并确保对传统防御的逃避,同时保持内容完整性。
Feb, 2024
本研究开发了一种新的数据污染攻击方法,能够在训练数据中插入少量样本并控制模型预测结果,其中包含一个特定的强制词,同时提出了三种缓解该攻击的防御策略。
Oct, 2020
本研究主要探讨在文本背门攻击中,通过触发词的优化和污染样本的选择,以减少污染样本的数量同时仍能达到满意的攻击成功率,从而显著提高攻击的有效性。在不同数据集和模型上进行的大量实验证明,该方法在文本分类任务中能够达到超过 90% 的攻击成功率,并且在脏标签设置中仅需要 10 个污染样本,在清洁标签设置中仅需要训练数据的 1.5%。
Nov, 2023
大型语言模型的伦理标准与人类价值的对齐可以通过模型输出日志的滥用来被破坏,我们提出的模型审问方法能够揭示隐藏在输出日志中的有害回复,有效性达到 92%,速度快 10 到 20 倍,对编码任务也适用。
Dec, 2023
该研究表明,神经机器翻译系统不仅容易受到对抗性测试输入的攻击,而且容易受到训练攻击的影响,作者提出了一种毒化攻击方法,插入带有误导性的毒化样本,从而在神经机器翻译系统训练中引起指定的翻译行为,本文提出了防御方法,但仍需要紧急关注。
Jul, 2021
本文研究了基于提示的大语言模型存在的后门安全威胁,并提出了一种名为 POISONPROMPT 的新型后门攻击方法,实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性,该研究强调了进一步研究这一领域的重要性。
Oct, 2023
本研究提出了一种创新的测试时毒样本检测框架,依靠模型预测的可解释性,并关注输入的语义含义,旨在解决当前检测机制对于隐蔽型后门攻击(如基于风格的攻击)的局限性。通过采用 ChatGPT 及模版工程问题来执行触发词去除任务,并结合模糊测试技术发现最佳的改写提示来有效消除触发词,同时保持输入语义,实验证明该方法在 4 种类型的后门攻击和 4 个不同数据集上均优于基线方法(包括 STRIP,RAP 和 ONION)的准确率和召回率。
Aug, 2023