PKU-SafeRLHF: Llama 家族模型的安全对齐偏好数据集

Jun, 2024

PKU-SafeRLHF: Llama 家族模型的安全对齐偏好数据集

PKU-SafeRLHF: A Safety Alignment Preference Dataset for Llama Family Models

Jiaming Ji, Donghai Hong, Borong Zhang, Boyuan Chen, Josef Dai...

TL;DR本文介绍了 PKU-SafeRLHF 数据集，旨在促进大型语言模型（LLMs）中的安全任务对齐研究。数据集包含 44.6k 个精细设定的提示和 265k 个问题 - 答案对，涵盖了 19 个伤害类别和从轻微到严重的三个严重程度级别，答案由 Llama 家族模型生成。利用大规模标注数据，我们进一步训练了对 LLMs 的风险控制的严重程度敏感的算法以及对 LLMs 的安全任务对齐的安全中心 RLHF 算法。我们相信这个数据集将成为社区宝贵的资源，有助于 LLMs 的安全部署。

Abstract

In this work, we introduce the pku-saferlhf dataset, designed to promote research on safety alignment in large language models (LLMs). As

pku-saferlhf dataset safety alignment large language models annotations harm categories

发现论文，激发创造

改善 LLM 的安全对齐：基于人类偏好数据的探索

介绍了 BeaverTails 数据集，用于促进大型语言模型（LLMs）中的安全一致性研究。该数据集独特地区分了有关问答对的有用性和无害性的注释，因此可以从不同的角度对这些关键属性进行分析。总共编制了 30,207 个问答对的安全元标签，并收集了 30,144 个专家比较数据，包括有用性和无害性度量。此外，还展示了 BeaverTails 在内容过滤和带有人类反馈的强化学习方面的应用，并强调了其在 LLMs 中实施实际安全措施的潜力。我们相信该数据集为社区提供了重要资源，为 LLMs 的安全发展和部署做出了贡献。

Jul, 2023

Safe RLHF: 安全的强化学习从人类反馈中

利用 Safe Reinforcement Learning from Human Feedback（Safe RLHF）算法，通过训练单独的奖励和成本模型，实现了对大型语言模型（LLMs）在帮助性和无害性上进行人类价值调整，以最大化奖励函数并满足成本约束条件；通过实验证明与现有的值对齐算法相比，Safe RLHF 在减轻有害回应的能力和提高模型性能方面更为优越。

Oct, 2023

从再现性伤害到服务质量伤害：一项关于 “羊驼 2” 安全保障的案例研究

通过对 Llama 2 的案例进行研究，评估了安全措施对已减轻的偏见的效果，并发现安全与有益性的权衡在某些人群中更加明显，可能对边缘化群体造成服务质量损害。

Mar, 2024

Safer-Instruct: 与自动偏好数据对齐的语言模型

Safer-Instruct 是一种半自动构建大规模偏好数据集的新型流程，利用反向指令调整、指令归纳和专家模型评估，高效生成高质量的偏好数据，改善模型安全性并在会话和下游任务上保持竞争性能。

Nov, 2023

用于评估大型语言模型中的保障措施的中文数据集

通过引入一个用于评估中文 LLM 安全性的数据集，我们扩展到其他两个场景，用于更好地识别有风险的提示拒绝的假阴性和假阳性示例，并提出了细化的每种风险类型的安全评估标准，为 LLM 响应的有害性进行手动注释和自动评估。我们在五个 LLM 上的实验表明，区域特定风险是最普遍的风险类型，是我们所研究的所有中文 LLM 的主要问题。

Feb, 2024

SPA-VL：用于视觉语言模型的全面安全偏好对齐数据集

提出了一种名为 SPA-VL 的视觉语言模型安全偏好对齐数据集，通过在此数据集上使用对齐技术进行训练，可以显著提高模型在无害性和有益性方面的表现，同时保持其核心能力。

Jun, 2024

SafeSora: 通过人类偏好数据集实现文本到视频生成的安全对齐

为了减轻大规模视觉模型（LVMs）带来的有害输出的风险，我们引入了 SafeSora 数据集，促进文本到视频生成与人类价值观的对齐研究。该数据集包括帮助性和无害性两个主要维度上的人类偏好，并进一步细分为 4 个子维度和 12 个子类别。通过多个应用，我们展示了 SafeSora 数据集的实用性，例如培训文本 - 视频审查模型、通过对齐算法的微调来与人类偏好相对齐的 LVMs 等。这些应用突显了 SafeSora 数据集在文本到视频对齐研究中的潜力，例如人类偏好建模和对齐算法的开发与验证。

Jun, 2024

通过话语链安全对齐红队大型语言模型

基于大型语言模型的安全性评估与对抗、生成有害回应的问题以及安全对齐的方法和模型研究。

Aug, 2023

SLM 作为守护者：先驱性地利用小型语言模型进行人工智能安全

利用较小的大语言模型实现有害查询检测和安全响应，通过多任务学习机制融合两个任务到一个模型里，效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。

May, 2024

Do-Not-Answer: 评估 LLMs 中的保障措施的数据集

通过开发一个标注的数据集，本文研究了大型语言模型的危险能力评估，并展示了使用 BERT 类别分类器在自动安全评估中能够获得与 GPT-4 相媲美的结果。

Aug, 2023