BriefGPT.xyz
Ask
alpha
关键词
knowledge direct preference optimization
搜索结果 - 1
通过调整的直接偏好优化对语言模型进行知识编辑
基于在线方法的知识编辑,使用当前已知知识作为负样本,并引入新知识作为正样本,通过使用改进的 DPO 方法,进一步优化知识编辑,以实现与先前方法相似或更好的性能。
PDF
22 days ago
Prev
Next