模型编辑用于社会去偏倚的潜力和挑战
本研究旨在探讨大型语言模型的编辑问题,提出当前最先进的编辑方法并构建了一个新的基准数据集进行实证分析,从而为研究社区在选择适用于特定任务或上下文的最合适的方法时提供有价值的见解。
May, 2023
通过对两个大型语言模型在八个代表性任务类别上评估四种常用的编辑方法进行广泛实证研究后,我们发现模型的编辑能够提高模型的事实性,但会显著损害模型的通用能力,因此我们呼吁更多的研究努力来最小化在大语言模型预训练期间获得的通用能力的损失,并在模型编辑过程中最终保留它们。
Jan, 2024
为了提高语言模型的公正性,本文提出了多项定义并给出了新的测试和度量方式,旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明,该方法能够在文本生成中减少偏见同时保留重要的上下文信息。
Jun, 2021
本研究聚焦于编辑多模态大型语言模型(MLLMs),通过构建名为 MMEdit 的新基准测试和创新评估指标,以提供对多模态 LLMs 进行编辑的相关研究和改进效果的综合实验和分析,旨在为自然语言处理社区提供深入的见解。
Oct, 2023
该研究采用半合成数据集的方法,对模型编辑问题进行实证研究,旨在探索语言模型的知识控制方式,进一步提出一个形式化测试平台,批判现有模型编辑问题的标准公式,并证明其离期望的认识标准还有一定差距。
Jun, 2024
本文旨在探索对大型语言模型进行知识编辑可能带来的潜在问题,并提出了基准数据集和创新评估指标来研究这些问题。实验结果显示,知识编辑可能意外产生对大型语言模型的意想不到的后果,因此需要引起关注并进行进一步研究。
Oct, 2023
通过对现有和附加的数据集进行系统评估公平性、特异性和泛化性的互补度量,本文首先建立了一个新的偏差缓解基准 BiasKE。同时,我们提出了一种新颖的偏差缓解方法 FAST,通过对个体偏见知识进行细粒度校准,实现可编辑的公平性。全面的实验证明,FAST 在保留知识的整体模型能力的同时,优于现有技术基线,具有显著的偏差缓解性能,突出了 LLM 中可编辑公平性的细粒度偏差缓解策略的前景。
May, 2024
大型语言模型 (Large Language Models) 在理解和生成与人类交流非常相似的文本方面表现出非凡的能力。然而,由于其广泛的参数化,训练过程中存在重大的计算需求限制。这种挑战由于世界的动态性而进一步加剧,需要经常更新 LLM 以纠正过时的信息或整合新知识,从而确保它们持续具有相关性。近年来,对于即时修改模型的高效轻量级方法引起了越来越多的关注。本文首先定义了知识编辑问题,然后提供了对最前沿方法的全面回顾。在教育和认知研究理论的启发下,我们提出了一个统一的分类准则,将知识编辑方法分为三类:利用外部知识、将知识合并到模型中以及编辑内在知识。此外,我们引入了一个新的基准 KnowEdit,以对代表性的知识编辑方法进行综合实证评估。此外,我们对知识定位进行了深入分析,从而更深入地了解 LLM 固有的知识结构。最后,我们讨论了知识编辑的几个潜在应用,并概述了它的广泛而有影响力的意义。
Jan, 2024
模型编辑是一种成本效益高的策略,用于更新存储在语言模型中的知识。然而,模型编辑可能在应用编辑后产生意想不到的后果:与编辑无关的信息也可能被改变,并且模型的其他一般行为也可能被错误地改变。本研究调查了模型编辑方法如何意外地放大模型的偏见,并引入了一个新的基准数据集 Seesaw-CF,用于衡量模型编辑对偏见相关伤害的影响,并对不同的权重编辑方法如何影响模型偏见进行了全面调查。具体地,我们关注与种族、地理起源和性别等人口属性相关的偏见,以及经过编辑的语言模型生成的长篇文本的定性缺陷。我们发现,经过编辑的模型在对亚洲、非洲和南美洲等对象的属性越不自信时,更倾向于表现出不同程度的偏见行为。此外,经过编辑的模型在生成文本时放大了性别歧视和排外情绪,同时仍然表现得似乎连贯且合乎逻辑。最后,编辑关于出生地、公民国籍或性别的事实对模型对类似职业的不相关特征的了解产生特别负面影响。
Feb, 2024