ACLMay, 2023

大型语言模型编辑错误检测:一个改进的细节基准

TL;DR该研究扩展了现有的 CounterFact 基准来包含动态因素,并通过基于 KL 散度的度量衡量特异性,发现了模型编辑技术可能导致的大规模不良副作用,表明需要改进的特异性基准来识别和预防不良副作用。