Sep, 2023

成对近邻策略优化:利用相对反馈进行 LLM 对齐

TL;DR通过相对反馈,本文介绍了一种更简单而有效的方法,以相对反馈将大型语言模型对齐到人类的偏好。