Feb, 2024

相对偏好优化:通过对相同和不同提示的对比响应来增强 LLM 对齐

TL;DR通过对比加权机制,Relative Preference Optimization (RPO) 提出了一种针对大型语言模型的优化方法,提高了模型对用户偏好的理解能力,并在训练过程中提高了适应性。