通过知识编辑对大型语言模型进行毒素清除

Mar, 2024

通过知识编辑对大型语言模型进行毒素清除

Detoxifying Large Language Models via Knowledge Editing

Mengru Wang, Ningyu Zhang, Ziwen Xu, Zekun Xi, Shumin Deng...

TL;DR使用知识编辑技术解毒大型语言模型，并提出了一种简单而有效的基线方法，减小了毒性参数的影响并进行了内部机制的深度分析，为未来的解毒方法和语言模型的知识机制提供了启示。

Abstract

This paper investigates using knowledge editing techniques to detoxify Large Language Models (LLMs). We construct a benchmark, safeedit, which covers nine unsafe categories with various powerful attack prompts an

knowledge editing techniques large language models safeedit detoxifying with intraoperative neural monitoring toxic parameters

发现论文，激发创造

大型语言模型的概念知识编辑

该论文探索了在大型语言模型中编辑概念性知识的能力，通过构建一个新的基准数据集 ConceptEdit 和建立一套新的度量标准来评估现有的编辑方法。实验结果表明，虽然现有的编辑方法在某种程度上能有效地修改概念级别的定义，但也有可能扭曲大型语言模型中相关的实例化知识，导致性能下降。这对于更好地理解大型语言模型的能力具有启发意义。

Mar, 2024

大型语言模型的知识编辑综合研究

大型语言模型 (Large Language Models) 在理解和生成与人类交流非常相似的文本方面表现出非凡的能力。然而，由于其广泛的参数化，训练过程中存在重大的计算需求限制。这种挑战由于世界的动态性而进一步加剧，需要经常更新 LLM 以纠正过时的信息或整合新知识，从而确保它们持续具有相关性。近年来，对于即时修改模型的高效轻量级方法引起了越来越多的关注。本文首先定义了知识编辑问题，然后提供了对最前沿方法的全面回顾。在教育和认知研究理论的启发下，我们提出了一个统一的分类准则，将知识编辑方法分为三类：利用外部知识、将知识合并到模型中以及编辑内在知识。此外，我们引入了一个新的基准 KnowEdit，以对代表性的知识编辑方法进行综合实证评估。此外，我们对知识定位进行了深入分析，从而更深入地了解 LLM 固有的知识结构。最后，我们讨论了知识编辑的几个潜在应用，并概述了它的广泛而有影响力的意义。

Jan, 2024

逐步解毒语言模型

针对语言模型的解毒具有挑战性，本文提出了分解解毒过程、基于无毒提示的连续生成以及使用 Detox-Chain 进行有序连接的方法来实现显著的解毒和生成改进。

Aug, 2023

清理语言模型风险边缘化少数群体声音

本文研究了使用 LM 模型在 marginalized groups 中的应用，发现目前已有的毒性去除技术会降低模型在 marginalized groups 语言中的效用，因为这些技术削弱了 LM 模型的抗分布转移能力，导致各种失败。

Apr, 2021

大型语言模型的知识清洗

我们探索了一种知识消毒方法，用于减轻与大型语言模型（LLMs）相关的隐私问题。我们的方法通过微调模型，在查询特定信息时，促使其生成无害回答，如 “我不知道”。实验证实，我们的简单方法不仅最小化了特定知识泄漏，还保留了 LLM 的整体性能。这两个优势加强了对提取攻击的防御，并减少了产生幻觉等有害内容的排放。

Sep, 2023

编辑巨人的思维：关于大型语言模型知识编辑陷阱的深度探索

知识编辑是一种有效更新大型语言模型中的实际知识而最小化参数改动的新兴技术。然而，近期研究发现一些令人担忧的副作用，如知识扭曲和综合能力下降，这在编辑后产生了。本调查综合研究了这些副作用，提供了一个统一的观点，对于 LLMs 中的知识编辑所面临的挑战进行了讨论。我们讨论了相关工作，并总结了克服这些限制的潜在研究方向。我们的工作强调了当前知识编辑方法的限制，强调了对 LLMs 内部知识结构的更深入理解和改进的知识编辑方法的需求。为促进未来研究，我们已公开发布了补充材料，如论文集，网址为 https URL。

Jun, 2024

清洗语言模型中的挑战

我们探讨了一些减轻大型语言模型毒性的策略，并分析了这些策略对模型偏差和质量的影响。我们发现：虽然基本的干预策略可以有效地优化先前建立的自动指标，但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时，我们还发现，在强减毒干预之后，人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。

Sep, 2021

EasyEdit: 适用于大型语言模型的易于使用的知识编辑框架

大型语言模型（LLMs）通常存在知识截断或谬误问题，为解决此问题，我们提出了 EasyEdit，一个易于使用的 LLMs 知识编辑框架，它支持各种前沿的知识编辑方法，并在可靠性和推广性方面超过了传统微调。

Aug, 2023

大规模语言模型的鲁棒可扩展模型编辑

利用 EREN（通过阅读笔记编辑模型）提出方法来提高大型语言模型的可伸缩性和鲁棒性，通过正确响应语法相似但语义无关的输入以及从多个修改中整合知识，优于现有技术。

Mar, 2024

探索域自适应训练对于大规模语言模型去毒化的极限

本文系统性地研究了领域自适应训练方法，利用语言模型的生成能力产生无毒数据集达到更高的数据效率，通过实验证明了自生成方法可以有效降低大型语言模型毒性，即使使用小得多的训练数据，也可以在自动和人类评估中优于现有的基线方法，并且提出了适配器层训练方法来降低参数，实现了更好的毒性 - 困惑度平衡。

Feb, 2022