Jun, 2024

PKU-SafeRLHF: Llama 家族模型的安全对齐偏好数据集

TL;DR本文介绍了 PKU-SafeRLHF 数据集,旨在促进大型语言模型(LLMs)中的安全任务对齐研究。数据集包含 44.6k 个精细设定的提示和 265k 个问题 - 答案对,涵盖了 19 个伤害类别和从轻微到严重的三个严重程度级别,答案由 Llama 家族模型生成。利用大规模标注数据,我们进一步训练了对 LLMs 的风险控制的严重程度敏感的算法以及对 LLMs 的安全任务对齐的安全中心 RLHF 算法。我们相信这个数据集将成为社区宝贵的资源,有助于 LLMs 的安全部署。