Jul, 2023

改善 LLM 的安全对齐:基于人类偏好数据的探索

TL;DR介绍了 BeaverTails 数据集,用于促进大型语言模型(LLMs)中的安全一致性研究。该数据集独特地区分了有关问答对的有用性和无害性的注释,因此可以从不同的角度对这些关键属性进行分析。总共编制了 30,207 个问答对的安全元标签,并收集了 30,144 个专家比较数据,包括有用性和无害性度量。此外,还展示了 BeaverTails 在内容过滤和带有人类反馈的强化学习方面的应用,并强调了其在 LLMs 中实施实际安全措施的潜力。我们相信该数据集为社区提供了重要资源,为 LLMs 的安全发展和部署做出了贡献。