Jun, 2024

传奇:利用表征工程为偏好数据集标注安全边界

TL;DR我们提出了一种有效且高效的框架来推动边界增强的偏好数据集的发展,通过利用语义距离对配对响应沿着安全方向进行自动标注,并在奖励建模和安全对齐方面进行了实验验证。