May, 2024

Hummer: 朝着有限竞争偏好数据集的方向

TL;DR引入了一种新的统计度量指标,即 Alignment Dimension Conflict,用于量化偏好数据集内部的冲突程度。提出了 Hummer 和 Hummer-F 这两个创新的成对偏好数据集,并开发了 HummerRM 和 HummerRM-F 这两个奖励模型,有效平衡多样的对齐目标,适用于领域特定的进一步微调和减少攻击的弱点。