通过知识编辑对大型语言模型进行毒素清除
该论文探索了在大型语言模型中编辑概念性知识的能力,通过构建一个新的基准数据集 ConceptEdit 和建立一套新的度量标准来评估现有的编辑方法。实验结果表明,虽然现有的编辑方法在某种程度上能有效地修改概念级别的定义,但也有可能扭曲大型语言模型中相关的实例化知识,导致性能下降。这对于更好地理解大型语言模型的能力具有启发意义。
Mar, 2024
大型语言模型 (Large Language Models) 在理解和生成与人类交流非常相似的文本方面表现出非凡的能力。然而,由于其广泛的参数化,训练过程中存在重大的计算需求限制。这种挑战由于世界的动态性而进一步加剧,需要经常更新 LLM 以纠正过时的信息或整合新知识,从而确保它们持续具有相关性。近年来,对于即时修改模型的高效轻量级方法引起了越来越多的关注。本文首先定义了知识编辑问题,然后提供了对最前沿方法的全面回顾。在教育和认知研究理论的启发下,我们提出了一个统一的分类准则,将知识编辑方法分为三类:利用外部知识、将知识合并到模型中以及编辑内在知识。此外,我们引入了一个新的基准 KnowEdit,以对代表性的知识编辑方法进行综合实证评估。此外,我们对知识定位进行了深入分析,从而更深入地了解 LLM 固有的知识结构。最后,我们讨论了知识编辑的几个潜在应用,并概述了它的广泛而有影响力的意义。
Jan, 2024
本文研究了使用 LM 模型在 marginalized groups 中的应用,发现目前已有的毒性去除技术会降低模型在 marginalized groups 语言中的效用,因为这些技术削弱了 LM 模型的抗分布转移能力,导致各种失败。
Apr, 2021
我们探索了一种知识消毒方法,用于减轻与大型语言模型(LLMs)相关的隐私问题。我们的方法通过微调模型,在查询特定信息时,促使其生成无害回答,如 “我不知道”。实验证实,我们的简单方法不仅最小化了特定知识泄漏,还保留了 LLM 的整体性能。这两个优势加强了对提取攻击的防御,并减少了产生幻觉等有害内容的排放。
Sep, 2023
知识编辑是一种有效更新大型语言模型中的实际知识而最小化参数改动的新兴技术。然而,近期研究发现一些令人担忧的副作用,如知识扭曲和综合能力下降,这在编辑后产生了。本调查综合研究了这些副作用,提供了一个统一的观点,对于 LLMs 中的知识编辑所面临的挑战进行了讨论。我们讨论了相关工作,并总结了克服这些限制的潜在研究方向。我们的工作强调了当前知识编辑方法的限制,强调了对 LLMs 内部知识结构的更深入理解和改进的知识编辑方法的需求。为促进未来研究,我们已公开发布了补充材料,如论文集,网址为 https URL。
Jun, 2024
我们探讨了一些减轻大型语言模型毒性的策略,并分析了这些策略对模型偏差和质量的影响。我们发现:虽然基本的干预策略可以有效地优化先前建立的自动指标,但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时,我们还发现,在强减毒干预之后,人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。
Sep, 2021
大型语言模型(LLMs)通常存在知识截断或谬误问题,为解决此问题,我们提出了 EasyEdit,一个易于使用的 LLMs 知识编辑框架,它支持各种前沿的知识编辑方法,并在可靠性和推广性方面超过了传统微调。
Aug, 2023
利用 EREN(通过阅读笔记编辑模型)提出方法来提高大型语言模型的可伸缩性和鲁棒性,通过正确响应语法相似但语义无关的输入以及从多个修改中整合知识,优于现有技术。
Mar, 2024
本文系统性地研究了领域自适应训练方法,利用语言模型的生成能力产生无毒数据集达到更高的数据效率,通过实验证明了自生成方法可以有效降低大型语言模型毒性,即使使用小得多的训练数据,也可以在自动和人类评估中优于现有的基线方法,并且提出了适配器层训练方法来降低参数,实现了更好的毒性 - 困惑度平衡。
Feb, 2022