大型语言模型编辑错误检测：一个改进的细节基准

ACLMay, 2023

大型语言模型编辑错误检测：一个改进的细节基准

Detecting Edit Failures In Large Language Models: An Improved Specificity Benchmark

Jason Hoelscher-Obermaier, Julia Persson, Esben Kran, Ioannis Konstas, Fazl Barez

TL;DR该研究扩展了现有的 CounterFact 基准来包含动态因素，并通过基于 KL 散度的度量衡量特异性，发现了模型编辑技术可能导致的大规模不良副作用，表明需要改进的特异性基准来识别和预防不良副作用。

Abstract

Recent model editing techniques promise to mitigate the problem of memorizing false or outdated associations during llm training. However, we show that these techniques can introduce large →

llm training model editing techniques specificity benchmarks counterfact+unwanted side effects

发现论文，激发创造

评估语言模型中的事实编辑依赖关系：特殊性和隐含意识

使用大型语言模型作为知识库的潜力引起了广泛关注。为了管理 LLMs 所获取的知识，我们需要确保学到的事实的编辑尊重内部逻辑约束，即被称为知识依赖性。然而，现有的 LLMs 编辑工作在处理一个事实与其逻辑蕴含之间的依赖关系时存在局限性。我们提出了一个评估协议和一个问答数据集 DepEdit，它提供了一个全面的评估编辑过程的依赖关系。我们的协议通过建立一个受控环境，在该环境中编辑事实并监测其对 LLMs 的影响以及基于 If-Then 规则的相关逻辑蕴含。对 DepEdit 的广泛实验表明，现有的知识编辑方法对知识的表面形式敏感，并且在推断编辑事实的逻辑蕴含方面表现受限。

Dec, 2023

模型编辑的蝴蝶效应：少量编辑可触发大型语言模型崩溃

模型编辑的影响、用困惑度作为衡量指标、顺序编辑和困难案例的研究，以及开发 HardCF 数据集探索模型编辑的潜在风险。

Feb, 2024

LLMs 作为事实推理器：现有基准和未来展望的洞见

通过提出新的数据集 SummEdits 来解决现有基准测试中存在的缺点，该数据集比以前的数据集更高效且高度可重复。然而，大多数 LL 模型在 SummEdits 上表现不佳，最好的 GPT-4 模型仍然比人类的表现差 8％，这凸显了 LL 模型在推理和检测事实不一致方面的能力差距。

May, 2023

模型编辑可能损害大型语言模型的普适能力

通过对两个大型语言模型在八个代表性任务类别上评估四种常用的编辑方法进行广泛实证研究后，我们发现模型的编辑能够提高模型的事实性，但会显著损害模型的通用能力，因此我们呼吁更多的研究努力来最小化在大语言模型预训练期间获得的通用能力的损失，并在模型编辑过程中最终保留它们。

Jan, 2024

大型语言模型知识编辑的陷阱揭示

本文旨在探索对大型语言模型进行知识编辑可能带来的潜在问题，并提出了基准数据集和创新评估指标来研究这些问题。实验结果显示，知识编辑可能意外产生对大型语言模型的意想不到的后果，因此需要引起关注并进行进一步研究。

Oct, 2023

大型语言模型的概念知识编辑

该论文探索了在大型语言模型中编辑概念性知识的能力，通过构建一个新的基准数据集 ConceptEdit 和建立一套新的度量标准来评估现有的编辑方法。实验结果表明，虽然现有的编辑方法在某种程度上能有效地修改概念级别的定义，但也有可能扭曲大型语言模型中相关的实例化知识，导致性能下降。这对于更好地理解大型语言模型的能力具有启发意义。

Mar, 2024

KEBench: 大型视觉语言模型的知识编辑基准

基于多模态知识图，本研究构建了一个新的基准评估 $ extbf {KEBench}$，并扩展了一种新的评估指标（可移植性），通过对五个大型视觉语言模型进行不同编辑方法的实验，深入分析这些方法对模型的影响，揭示了这些方法的优点和不足，为未来的研究提供了启示。

Mar, 2024

Eva-KELLM: 一个用于评估 LLMs 的知识编辑的新基准

评估大型语言模型的知识编辑能力和知识迁移效果的新基准 Eva-KELLM，采用原始文档进行知识编辑，从多个角度评估其效果，研究发现当前使用原始文档进行知识编辑的方法在处理修改后的知识以及跨语言知识迁移时效果不佳。

Aug, 2023

大型语言模型偏见缓解的知识编辑视角

通过对现有和附加的数据集进行系统评估公平性、特异性和泛化性的互补度量，本文首先建立了一个新的偏差缓解基准 BiasKE。同时，我们提出了一种新颖的偏差缓解方法 FAST，通过对个体偏见知识进行细粒度校准，实现可编辑的公平性。全面的实验证明，FAST 在保留知识的整体模型能力的同时，优于现有技术基线，具有显著的偏差缓解性能，突出了 LLM 中可编辑公平性的细粒度偏差缓解策略的前景。

May, 2024

FELM: 大型语言模型真实性评估基准

评估大型语言模型产生的文本的真实性是一个新兴而关键的研究领域，目的是提醒用户潜在错误并引导更可靠的语言模型的开发。为了解决这个问题，我们介绍了一个名为 felm 的大型语言模型真实性评估基准，该基准收集了来自语言模型的响应并以细化的方式注释了真实性标签。通过使用文本片段进行注释，我们可以帮助定位具体的事实错误。然而，我们的实验证实，当前的语言模型在忠实地检测事实错误方面还远远不够满意。

Oct, 2023