「胶带也无法修复」：编辑语言模型中的偏见和错误信息

Feb, 2024

「胶带也无法修复」：编辑语言模型中的偏见和错误信息

"Flex Tape Can't Fix That": Bias and Misinformation in Edited Language Models

Karina Halevy, Anna Sotnikova, Badr AlKhamissi, Syrielle Montariol, Antoine Bosselut

TL;DR模型编辑是一种成本效益高的策略，用于更新存储在语言模型中的知识。然而，模型编辑可能在应用编辑后产生意想不到的后果：与编辑无关的信息也可能被改变，并且模型的其他一般行为也可能被错误地改变。本研究调查了模型编辑方法如何意外地放大模型的偏见，并引入了一个新的基准数据集 Seesaw-CF，用于衡量模型编辑对偏见相关伤害的影响，并对不同的权重编辑方法如何影响模型偏见进行了全面调查。具体地，我们关注与种族、地理起源和性别等人口属性相关的偏见，以及经过编辑的语言模型生成的长篇文本的定性缺陷。我们发现，经过编辑的模型在对亚洲、非洲和南美洲等对象的属性越不自信时，更倾向于表现出不同程度的偏见行为。此外，经过编辑的模型在生成文本时放大了性别歧视和排外情绪，同时仍然表现得似乎连贯且合乎逻辑。最后，编辑关于出生地、公民国籍或性别的事实对模型对类似职业的不相关特征的了解产生特别负面影响。

Abstract

model editing has emerged as a cost-effective strategy to update knowledge stored in language models. However, model editing can have unintended consequences after edits are applied: information unrelated to the

model editing biases benchmark dataset demographic attributes text generations

发现论文，激发创造

模型编辑用于社会去偏倚的潜力和挑战

大型语言模型具有刻板印象偏见，模型编辑方法能够缓解这一问题，本研究通过综合性研究从多个角度评估了七种模型编辑算法在刻板偏见消除中的潜力和挑战，同时提出了两种简单有效的方法以提升刻板偏见的编辑效果。

Feb, 2024

大型语言模型偏见缓解的知识编辑视角

通过对现有和附加的数据集进行系统评估公平性、特异性和泛化性的互补度量，本文首先建立了一个新的偏差缓解基准 BiasKE。同时，我们提出了一种新颖的偏差缓解方法 FAST，通过对个体偏见知识进行细粒度校准，实现可编辑的公平性。全面的实验证明，FAST 在保留知识的整体模型能力的同时，优于现有技术基线，具有显著的偏差缓解性能，突出了 LLM 中可编辑公平性的细粒度偏差缓解策略的前景。

May, 2024

撒下风，收获飓风：编辑语言模型的影响

人工智能领域中，大型语言模型的红队测试或越狱概念成为一项关键研究领域，本文通过模型编辑的方式调查了这种修改的复杂后果，并揭示了在提高模型准确性和保护伦理完整性之间存在的复杂关系。研究发现，注入准确信息对模型的可靠性至关重要，但却可能不可预测地破坏其基础框架，产生潜在的不安全行为。同时，研究还提出了一个基准数据集 NicheHazardQA，用于研究模型在相同和不同主题领域内的不安全行为，从而揭示了编辑对模型安全指标和保护措施的影响。研究结果表明，模型编辑是一种成本效益高的工具，可通过有针对性的修改和评估产生的模型行为来进行主题相关红队测试。

Jan, 2024

模型编辑的蝴蝶效应：少量编辑可触发大型语言模型崩溃

模型编辑的影响、用困惑度作为衡量指标、顺序编辑和困难案例的研究，以及开发 HardCF 数据集探索模型编辑的潜在风险。

Feb, 2024

跨界拓展：模型编辑对跨语言性能的影响研究

该研究通过考察多语境下的几种知识编辑技术，战略性地确定了语言平等的需求。我们评估了 Mistral、TowerInstruct、OpenHathi、Tamil-Llama 和 Kan-Llama 等模型在英语、德语、法语、意大利语、西班牙语、印地语、泰米尔语和卡纳达语等语言上的性能。研究发现了跨语言一致性方面正常模型和合并模型之间的显著差异。我们采用 “每种语言为自己”（ELFI）和 “每种语言为他人”（ELFO）等策略对这些模型进行了强化测试。研究结果表明，LMM 具有克服语言障碍的潜力，为实现人工智能技术中的语言包容性奠定了基础。

Jun, 2024

模型编辑可能损害大型语言模型的普适能力

通过对两个大型语言模型在八个代表性任务类别上评估四种常用的编辑方法进行广泛实证研究后，我们发现模型的编辑能够提高模型的事实性，但会显著损害模型的通用能力，因此我们呼吁更多的研究努力来最小化在大语言模型预训练期间获得的通用能力的损失，并在模型编辑过程中最终保留它们。

Jan, 2024

第二次审视的偏见：对德国教育同行评审数据建模偏见的深入挖掘

本文基于德文语料库的数据集，在多个体系结构中通过词嵌入联想测试（WEAT）分析了预先训练的德语语言模型的偏见，发现这些语言模型存在实质性的概念、种族和性别偏见，并且在同伴评审数据的微调中，偏见在概念和种族轴上有显着变化。

Sep, 2022

模型编辑中的遗漏部分：对模型编辑带来的隐藏损害的深入探究

该论文提出了一种用于评估和缓解大型语言模型编辑中的涟漪效应的方法，通过引入 GORA 和 SORA 方法，实现了对模型编辑的量化评估，有效解决了当前模型编辑方法中存在的隐藏空间涟漪效应问题，推进了大型语言模型编辑技术的发展。

Mar, 2024

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

大型语言模型知识编辑的陷阱揭示

本文旨在探索对大型语言模型进行知识编辑可能带来的潜在问题，并提出了基准数据集和创新评估指标来研究这些问题。实验结果显示，知识编辑可能意外产生对大型语言模型的意想不到的后果，因此需要引起关注并进行进一步研究。

Oct, 2023