Feb, 2024

ICDPO:通过上下文中的直接偏好优化有效地借用他人的对齐能力

TL;DR通过重新思考 DPO 的推导过程,并基于此,借鉴了 ICL 前后 LLM 的状态建立了一个瞬时评分器,从而提出了一种名为 ICDPO 的新方法,使得 LLM 能够借助具有 ICL 的优秀 LLM 的 HPA 能力,生成与前述瞬时评分器估计的良好对齐的回复,从而提升最终性能。