关于精细化语言模型中的后门攻击
本研究旨在研究恶意预训练语言模型对 NLP 系统带来的安全威胁,通过 TROJAN-LM 攻击来实现 NLP 系统的误操作,并提供分析性证明及可能的对策。
Aug, 2020
大型语言模型在软件开发中提供了许多令人兴奋的新功能,然而,这些模型的不透明性使得它们难以理解和检查,其不透明性带来了潜在的安全风险,因为对手可以训练和部署被损害的模型来干扰受害组织的软件开发过程,本研究总结了当前大型代码语言模型中特洛伊木马攻击的最新进展,并重点关注触发器 —— 特洛伊木马的主要设计要点,同时用一种新颖的触发器分类框架提供统一的定义。我们还希望对 Code LLMs 领域中的基本概念给出一个统一的定义,并对触发器设计对代码模型学习的影响进行讨论。
May, 2024
本研究开发了一种新的数据污染攻击方法,能够在训练数据中插入少量样本并控制模型预测结果,其中包含一个特定的强制词,同时提出了三种缓解该攻击的防御策略。
Oct, 2020
通过三层防御机制,本研究调查了对大型语言模型的黑盒攻击方法,分析了这些攻击所带来的挑战和重要性,评估了现有攻击和防御方法的有效性和适用性,并特别关注了黑盒攻击的检测算法,用于识别语言模型中的危险漏洞和获取敏感信息,提出了一种对大型语言模型进行黑盒攻击的漏洞检测方法和防御策略的开发。
Jun, 2024
该研究致力于通过利用知识蒸馏过程中的未标记数据,在不引起教师模型明显异常行为的情况下,向学生模型中嵌入木马攻击,从而最终设计出一种可以有效降低学生模型准确性、不改变教师模型性能且在实践中构造高效的 Trojan 攻击。
Mar, 2023
本文介绍 TrojText 解决方案,旨在确定是否能够在没有训练数据的情况下更高效、更省成本地执行文本特洛伊攻击。其提出的算法 RLI 利用较小的采样测试数据而不是大量的训练数据来实现所需的攻击,并引入了 AGR 和 TWP 使得攻击开销更小。在三个数据集(AG's News,SST-2 和 OLID)中评估了 TrojText 方法,使用三个 NLP 模型(BERT,XLNet 和 DeBERTa),结果表明 TrojText 方法在 BERT 模型上为 AG's News 数据集中的目标类别测试句子实现了 98.35%的分类精度。
Mar, 2023
大语言模型(LLMs)在各个领域展示出了显著的能力,但它们对木马或后门攻击的脆弱性带来了重大的安全风险。本研究探讨了通过特洛伊检测竞赛 2023(TDC2023)获得的挑战和见解,该竞赛的重点是识别和评估对 LLMs 的特洛伊攻击。我们研究了区分有意和无意触发器之间的困难,以及在实际情况中逆向工程特洛伊的可行性。我们对各种特洛伊检测方法进行了比较分析,发现实现高召回率比获得高逆向工程攻击成功率(REASR)更具挑战性。竞赛中表现最佳的方法实现了约 0.16 的召回率,与从与训练前缀类似的分布中随机抽取句子的简单基线相当。这一发现提出了关于仅给定有害目标的情况下模型中插入的特洛伊的可检测性和恢复性的问题。尽管无法完全解决问题,但该竞赛揭示了关于特洛伊检测的可行性和改进 LLM 输入提示技术的有趣观察。无意触发器的现象及其与有意触发器的区分困难突显了对 LLMs 的鲁棒性和可解释性进行进一步研究的需求。TDC2023 对于特洛伊检测在 LLMs 中的挑战和机遇提供了宝贵的见解,为今后在这一领域确保其在实际应用中的安全性和可靠性奠定了基础。
Apr, 2024
通过细粒度的实验,我们展示了在大语言模型的精调阶段仅仅使用总数据样本的 1% 即可成功地对大语言模型进行毒化,这是针对自然语言生成任务进行的首次系统性理解并考虑了多种触发方式和攻击设置的毒化攻击。
Dec, 2023
该论文提出了一种基于模型输出偏差分析的模型级神经木马检测框架来检测 NLP 领域的神经木马,并提出了一种轻量级变体以提高检测速度。
Aug, 2022
本研究表明对 instruction-tuned LMs 输入恶意抽样将导致模型预测失准,大型 LMs 在此方面更易受攻击,而基于数据过滤或减少模型容量的防御措施提供的保护有限,同时会降低测试准确性。
May, 2023