EMNLPDec, 2023

长文问答中的公理化偏好建模

TL;DR通过发展一个公理框架来指导奖励模型与人的偏好一致性,研究人员训练了一个仅含有 2.2 亿参数的优先级模型,并发现使用少量的公理信号可以帮助小模型在偏好评分方面优于 GPT-4。