Dec, 2023

ULMA:统一语言模型对齐与演示与逐点人类偏好

TL;DR发展了一种称为点对点 DPO 的偏好学习方法,该方法填补了现有点对点优先学习方法在信息损失和失败方面的不足,并提供了同时处理人类演示和点对点优先数据的统一框架。