自然语言模型编辑增强的灵活模型可解释性

Nov, 2023

自然语言模型编辑增强的灵活模型可解释性

Flexible Model Interpretability through Natural Language Model Editing

Karel D'Oosterlinck, Thomas Demeester, Chris Develder, Christopher Potts

TL;DR在大型语言模型时代，模型可解释性和模型编辑是关键目标。有趣的是，这两个目标之间存在一种联系：如果一种方法能够针对人类感兴趣的概念有系统地编辑模型行为，这种编辑方法可以通过指向相关表示并系统地操控它们来帮助使内部表示更具可解释性。

Abstract

model interpretability and model editing are crucial goals in the age of large language models. Interestingly, there exists a link between

model interpretability model editing large language models internal representations systematic manipulation

发现论文，激发创造

大型语言模型编辑：问题、方法和机遇

本研究旨在探讨大型语言模型的编辑问题，提出当前最先进的编辑方法并构建了一个新的基准数据集进行实证分析，从而为研究社区在选择适用于特定任务或上下文的最合适的方法时提供有价值的见解。

May, 2023

大型语言模型能否稳健地进行编辑？

大语言模型的编辑方法在实际应用中存在明显的性能衰退，更流行的知识难以编辑且对性能和鲁棒性有较强关联。

Feb, 2024

解释型自然语言处理的本地解释概览

研究探讨了提高深度神经网络在自然语言处理（NLP）任务中的可解释性的各种方法，包括机器翻译和情感分析，并对术语 “可解释性” 及其各个方面进行了全面讨论。这项工作列举了与局部解释相关的各种方法，并将其分为三类：1）通过相关的输入特征解释模型的预测；2）通过自然语言解释进行解释；3）探查模型和单词表示的隐藏状态。

Mar, 2021

语言模型的可视化与解释

本文介绍了一些最流行的自然语言处理的深度学习可视化技术，并强调其可解释性和可解释性。

Apr, 2022

通过句子编辑探究语言模型可解释性

本文旨在将一个句子编辑数据集复用成为解释性测试场，系统研究预训练语言模型的可解释性及在该场景下的解释效果，发现注意力权重相关性较高，并且比基于梯度的显著性提取方法更有效。

Nov, 2020

大规模语言模型的鲁棒可扩展模型编辑

利用 EREN（通过阅读笔记编辑模型）提出方法来提高大型语言模型的可伸缩性和鲁棒性，通过正确响应语法相似但语义无关的输入以及从多个修改中整合知识，优于现有技术。

Mar, 2024

可解释性，然后呢？通过编辑机器学习模型来反映人类的知识和价值观

本文介绍了由机器学习、人机交互研究员、医生和数据科学家联合开发的第一个交互式系统 GAM Changer，能够帮助领域专家轻松编辑广义加性模型（GAMs）并修复存在的问题，使其满足其知识和价值观。且该工具易于使用、符合编辑需要，可满足当前工作流程。

Jun, 2022

大型语言模型的概念知识编辑

该论文探索了在大型语言模型中编辑概念性知识的能力，通过构建一个新的基准数据集 ConceptEdit 和建立一套新的度量标准来评估现有的编辑方法。实验结果表明，虽然现有的编辑方法在某种程度上能有效地修改概念级别的定义，但也有可能扭曲大型语言模型中相关的实例化知识，导致性能下降。这对于更好地理解大型语言模型的能力具有启发意义。

Mar, 2024

模型编辑用于社会去偏倚的潜力和挑战

大型语言模型具有刻板印象偏见，模型编辑方法能够缓解这一问题，本研究通过综合性研究从多个角度评估了七种模型编辑算法在刻板偏见消除中的潜力和挑战，同时提出了两种简单有效的方法以提升刻板偏见的编辑效果。

Feb, 2024

通过基于样例的解释和编辑模型输入直观评估机器学习模型的可靠性

本文介绍了两个视觉分析模块，以帮助用户更直观地评估模型可靠性和不确定性，并通过使用交互式编辑器，用户可以操作模型的输入以及比较其输出，从而提高对模型能力和局限性的理解。在心电图节拍分类案例研究中，与基线特征重要性界面相比，我们发现 14 名医生能够更好地将模型的不确定性与领域相关因素相一致，并建立直觉。

Feb, 2021