Feb, 2024

模型编辑的蝴蝶效应:少量编辑可触发大型语言模型崩溃

TL;DR模型编辑的影响、用困惑度作为衡量指标、顺序编辑和困难案例的研究,以及开发 HardCF 数据集探索模型编辑的潜在风险。