关于精细化语言模型中的后门攻击

Jun, 2024

关于精细化语言模型中的后门攻击

On Trojans in Refined Language Models

Jayaram Raghuram, George Kesidis, David J. Miller

TL;DR插入语言模型中的木马可以在对其进行细化以确定产品评价情感等特定应用时进行。本文阐明并实证探索数据污染威胁模型的各种变体，然后实证评估两种简单的防御策略，针对不同的防御场景。最后，对相关的攻击和防御进行简要调查。

Abstract

A trojan in a language model can be inserted when the model is refined for a particular application such as determining the sentiment of product reviews. In this paper, we clarify and empirically explore variatio

trojan language model data poisoning defenses attacks

发现论文，激发创造

为了娱乐和利益对语言模型进行特洛伊植入

本研究旨在研究恶意预训练语言模型对 NLP 系统带来的安全威胁，通过 TROJAN-LM 攻击来实现 NLP 系统的误操作，并提供分析性证明及可能的对策。

Aug, 2020

代码大型语言模型中的木马：通过基于触发器的分类方法进行关键回顾

大型语言模型在软件开发中提供了许多令人兴奋的新功能，然而，这些模型的不透明性使得它们难以理解和检查，其不透明性带来了潜在的安全风险，因为对手可以训练和部署被损害的模型来干扰受害组织的软件开发过程，本研究总结了当前大型代码语言模型中特洛伊木马攻击的最新进展，并重点关注触发器 —— 特洛伊木马的主要设计要点，同时用一种新颖的触发器分类框架提供统一的定义。我们还希望对 Code LLMs 领域中的基本概念给出一个统一的定义，并对触发器设计对代码模型学习的影响进行讨论。

May, 2024

自然语言处理模型中的隐蔽数据毒化攻击

本研究开发了一种新的数据污染攻击方法，能够在训练数据中插入少量样本并控制模型预测结果，其中包含一个特定的强制词，同时提出了三种缓解该攻击的防御策略。

Oct, 2020

在防御系统中的提示注入攻击

通过三层防御机制，本研究调查了对大型语言模型的黑盒攻击方法，分析了这些攻击所带来的挑战和重要性，评估了现有攻击和防御方法的有效性和适用性，并特别关注了黑盒攻击的检测算法，用于识别语言模型中的危险漏洞和获取敏感信息，提出了一种对大型语言模型进行黑盒攻击的漏洞检测方法和防御策略的开发。

Jun, 2024

学习错误的教训：在知识蒸馏期间插入特洛伊木马

该研究致力于通过利用知识蒸馏过程中的未标记数据，在不引起教师模型明显异常行为的情况下，向学生模型中嵌入木马攻击，从而最终设计出一种可以有效降低学生模型准确性、不改变教师模型性能且在实践中构造高效的 Trojan 攻击。

Mar, 2023

TrojText: 测试时隐形文本木马插入

本文介绍 TrojText 解决方案，旨在确定是否能够在没有训练数据的情况下更高效、更省成本地执行文本特洛伊攻击。其提出的算法 RLI 利用较小的采样测试数据而不是大量的训练数据来实现所需的攻击，并引入了 AGR 和 TWP 使得攻击开销更小。在三个数据集（AG's News，SST-2 和 OLID）中评估了 TrojText 方法，使用三个 NLP 模型（BERT，XLNet 和 DeBERTa），结果表明 TrojText 方法在 BERT 模型上为 AG's News 数据集中的目标类别测试句子实现了 98.35％的分类精度。

Mar, 2023

大型语言模型中的特洛伊木马检测：来自特洛伊木马检测挑战的见解

大语言模型（LLMs）在各个领域展示出了显著的能力，但它们对木马或后门攻击的脆弱性带来了重大的安全风险。本研究探讨了通过特洛伊检测竞赛 2023（TDC2023）获得的挑战和见解，该竞赛的重点是识别和评估对 LLMs 的特洛伊攻击。我们研究了区分有意和无意触发器之间的困难，以及在实际情况中逆向工程特洛伊的可行性。我们对各种特洛伊检测方法进行了比较分析，发现实现高召回率比获得高逆向工程攻击成功率（REASR）更具挑战性。竞赛中表现最佳的方法实现了约 0.16 的召回率，与从与训练前缀类似的分布中随机抽取句子的简单基线相当。这一发现提出了关于仅给定有害目标的情况下模型中插入的特洛伊的可检测性和恢复性的问题。尽管无法完全解决问题，但该竞赛揭示了关于特洛伊检测的可行性和改进 LLM 输入提示技术的有趣观察。无意触发器的现象及其与有意触发器的区分困难突显了对 LLMs 的鲁棒性和可解释性进行进一步研究的需求。TDC2023 对于特洛伊检测在 LLMs 中的挑战和机遇提供了宝贵的见解，为今后在这一领域确保其在实际应用中的安全性和可靠性奠定了基础。

Apr, 2024

强制生成模型退化：数据注毒攻击的力量

通过细粒度的实验，我们展示了在大语言模型的精调阶段仅仅使用总数据样本的 1% 即可成功地对大语言模型进行毒化，这是针对自然语言生成任务进行的首次系统性理解并考虑了多种触发方式和攻击设置的毒化攻击。

Dec, 2023

基于扰动敏感性的自然语言处理神经木马检测框架 PerD

该论文提出了一种基于模型输出偏差分析的模型级神经木马检测框架来检测 NLP 领域的神经木马，并提出了一种轻量级变体以提高检测速度。

Aug, 2022

指导调整期间的语言模型中毒

本研究表明对 instruction-tuned LMs 输入恶意抽样将导致模型预测失准，大型 LMs 在此方面更易受攻击，而基于数据过滤或减少模型容量的防御措施提供的保护有限，同时会降低测试准确性。

May, 2023