Feb, 2024
相对偏好优化:通过对相同和不同提示的对比响应来增强 LLM 对齐
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts
Yueqin Yin, Zhendong Wang, Yi Gu, Hai Huang, Weizhu Chen...
TL;DR通过对比加权机制,Relative Preference Optimization (RPO) 提出了一种针对大型语言模型的优化方法,提高了模型对用户偏好的理解能力,并在训练过程中提高了适应性。