May, 2024

大型语言模型偏见缓解的知识编辑视角

TL;DR通过对现有和附加的数据集进行系统评估公平性、特异性和泛化性的互补度量,本文首先建立了一个新的偏差缓解基准BiasKE。同时,我们提出了一种新颖的偏差缓解方法FAST,通过对个体偏见知识进行细粒度校准,实现可编辑的公平性。全面的实验证明,FAST在保留知识的整体模型能力的同时,优于现有技术基线,具有显著的偏差缓解性能,突出了LLM中可编辑公平性的细粒度偏差缓解策略的前景。