对大型语言模型进行可证修复或攻击的隐形编辑

Jun, 2024

对大型语言模型进行可证修复或攻击的隐形编辑

Stealth edits for provably fixing or attacking large language models

Oliver J. Sutton, Qinghua Zhou, Wei Wang, Desmond J. Higham, Alexander N. Gorban...

TL;DR我们揭示了关于编辑大型语言模型的新方法和理论基础，展示了新理论如何用于评估模型的可编辑性以及揭示它们对以前未知的恶意攻击的敏感性。

Abstract

We reveal new methods and the theoretical foundations of techniques for editing large language models. We also show how the new theory can be used to assess the editability of models and to expose their susceptib

language models editing techniques theoretical foundations stealth editing methods vulnerability

发现论文，激发创造

BadEdit：通过模型编辑对大型语言模型设置后门

通过将后门注入问题转化为一个轻量级知识编辑问题，BadEdit 攻击框架直接改变 LLM 参数以引入后门，从而在注入技术的多个方面上具有优越性。

Mar, 2024

基于掩码语言模型的令人沮丧的基于编辑的语言隐写术

本文提出了一种基于掩码语言模型的语言隐写术，它克服了传统编辑方法的繁琐规则构建，并具有更高的负载能力和更好的安全性能。此方法比生成方法更易于控制安全性和负载能力之间的权衡。

Apr, 2021

关于深度学习系统攻击幽灵化的研究

本文的研究旨在探讨对深度学习模型的攻击是否具有隐蔽性，以及对攻击样本的隐蔽性进行了两种不同的测试方法，并发现大多数攻击会对图像进行不可忽略的扰动，且分析了攻击隐蔽性的各个因素。

May, 2022

撒下风，收获飓风：编辑语言模型的影响

人工智能领域中，大型语言模型的红队测试或越狱概念成为一项关键研究领域，本文通过模型编辑的方式调查了这种修改的复杂后果，并揭示了在提高模型准确性和保护伦理完整性之间存在的复杂关系。研究发现，注入准确信息对模型的可靠性至关重要，但却可能不可预测地破坏其基础框架，产生潜在的不安全行为。同时，研究还提出了一个基准数据集 NicheHazardQA，用于研究模型在相同和不同主题领域内的不安全行为，从而揭示了编辑对模型安全指标和保护措施的影响。研究结果表明，模型编辑是一种成本效益高的工具，可通过有针对性的修改和评估产生的模型行为来进行主题相关红队测试。

Jan, 2024

LLMs 下的敏感信息能够被删除吗？防御抽取攻击的目标

提出了攻击和防御框架用于直接删除模型权重中的敏感信息，研究表明即使使用先进的模型编辑方法，也很难真正从语言模型中删除敏感信息，并提供了一些防御方法来抵御抽取攻击。

Sep, 2023

大型语言模型编辑：问题、方法和机遇

本研究旨在探讨大型语言模型的编辑问题，提出当前最先进的编辑方法并构建了一个新的基准数据集进行实证分析，从而为研究社区在选择适用于特定任务或上下文的最合适的方法时提供有价值的见解。

May, 2023

模型编辑用于社会去偏倚的潜力和挑战

大型语言模型具有刻板印象偏见，模型编辑方法能够缓解这一问题，本研究通过综合性研究从多个角度评估了七种模型编辑算法在刻板偏见消除中的潜力和挑战，同时提出了两种简单有效的方法以提升刻板偏见的编辑效果。

Feb, 2024

基于大型语言模型推荐的隐蔽攻击

最近，大型语言模型对推荐系统的进展起到了重要作用，但是在系统蓬勃发展的同时，推荐系统容易受到安全威胁，我们揭示了引入大型语言模型到推荐模型中会导致新的安全漏洞，并且证明了攻击者可以通过改变物品的文本内容来显著提高其曝光度，而不影响模型的训练过程，且攻击方法具有隐蔽性，难以被用户和平台检测到。我们通过对四种主流基于大型语言模型的推荐模型进行全面实验证明了我们方法的高效性和隐蔽性。我们的研究揭示了基于大型语言模型的推荐系统存在重大的安全漏洞，并为未来的保护这些系统的研究开辟了道路。

Feb, 2024

深度学习和语言模型中注入无法检测到的后门

利用密码学技术，我们研究了机器学习模型中潜在的不可检测的后门问题，探索了外部专家公司设计模型中的潜在威胁，并引入了隐写功能来扩展神经网络后门攻击到语言模型中。

Jun, 2024

大型语言模型的概念知识编辑

该论文探索了在大型语言模型中编辑概念性知识的能力，通过构建一个新的基准数据集 ConceptEdit 和建立一套新的度量标准来评估现有的编辑方法。实验结果表明，虽然现有的编辑方法在某种程度上能有效地修改概念级别的定义，但也有可能扭曲大型语言模型中相关的实例化知识，导致性能下降。这对于更好地理解大型语言模型的能力具有启发意义。

Mar, 2024