Jun, 2024

通过调整的直接偏好优化对语言模型进行知识编辑

TL;DR基于在线方法的知识编辑,使用当前已知知识作为负样本,并引入新知识作为正样本,通过使用改进的 DPO 方法,进一步优化知识编辑,以实现与先前方法相似或更好的性能。