改善 LLM 的安全对齐：基于人类偏好数据的探索

Jul, 2023

改善 LLM 的安全对齐：基于人类偏好数据的探索

BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset

Jiaming Ji, Mickel Liu, Juntao Dai, Xuehai Pan, Chi Zhang...

TL;DR介绍了 BeaverTails 数据集，用于促进大型语言模型（LLMs）中的安全一致性研究。该数据集独特地区分了有关问答对的有用性和无害性的注释，因此可以从不同的角度对这些关键属性进行分析。总共编制了 30,207 个问答对的安全元标签，并收集了 30,144 个专家比较数据，包括有用性和无害性度量。此外，还展示了 BeaverTails 在内容过滤和带有人类反馈的强化学习方面的应用，并强调了其在 LLMs 中实施实际安全措施的潜力。我们相信该数据集为社区提供了重要资源，为 LLMs 的安全发展和部署做出了贡献。

Abstract

In this paper, we introduce the beavertails dataset, aimed at fostering research on safety alignment in large language models (LLMs). This

beavertails dataset safety alignment large language models question-answering content moderation

发现论文，激发创造

PKU-SafeRLHF: Llama 家族模型的安全对齐偏好数据集

本文介绍了 PKU-SafeRLHF 数据集，旨在促进大型语言模型（LLMs）中的安全任务对齐研究。数据集包含 44.6k 个精细设定的提示和 265k 个问题 - 答案对，涵盖了 19 个伤害类别和从轻微到严重的三个严重程度级别，答案由 Llama 家族模型生成。利用大规模标注数据，我们进一步训练了对 LLMs 的风险控制的严重程度敏感的算法以及对 LLMs 的安全任务对齐的安全中心 RLHF 算法。我们相信这个数据集将成为社区宝贵的资源，有助于 LLMs 的安全部署。

Jun, 2024

Do-Not-Answer: 评估 LLMs 中的保障措施的数据集

通过开发一个标注的数据集，本文研究了大型语言模型的危险能力评估，并展示了使用 BERT 类别分类器在自动安全评估中能够获得与 GPT-4 相媲美的结果。

Aug, 2023

揭示和提升数据可信度：用于训练无害语言模型的数据集研究

本研究专注于评估数据集的可信度，鉴定标签错误，并评估噪声标签对语言数据的影响，特别关注不安全评论和对话分类，通过直接修复标签错误来显著提高数据的可信度和下游学习性能，说明清理现有的真实世界数据集的重要性。

Nov, 2023

SafetyPrompts: 评估和改进大型语言模型安全性的开放数据集的系统综述

系统回顾了用于评估和改进大型语言模型安全性的开放数据集，研究了 102 个数据集，并发现了可用数据集的使用模式和趋势，以及数据集覆盖的缺口和目前评估实践的局限性。

Apr, 2024

用于评估大型语言模型中的保障措施的中文数据集

通过引入一个用于评估中文 LLM 安全性的数据集，我们扩展到其他两个场景，用于更好地识别有风险的提示拒绝的假阴性和假阳性示例，并提出了细化的每种风险类型的安全评估标准，为 LLM 响应的有害性进行手动注释和自动评估。我们在五个 LLM 上的实验表明，区域特定风险是最普遍的风险类型，是我们所研究的所有中文 LLM 的主要问题。

Feb, 2024

从再现性伤害到服务质量伤害：一项关于 “羊驼 2” 安全保障的案例研究

通过对 Llama 2 的案例进行研究，评估了安全措施对已减轻的偏见的效果，并发现安全与有益性的权衡在某些人群中更加明显，可能对边缘化群体造成服务质量损害。

Mar, 2024

SPA-VL：用于视觉语言模型的全面安全偏好对齐数据集

提出了一种名为 SPA-VL 的视觉语言模型安全偏好对齐数据集，通过在此数据集上使用对齐技术进行训练，可以显著提高模型在无害性和有益性方面的表现，同时保持其核心能力。

Jun, 2024

SLM 作为守护者：先驱性地利用小型语言模型进行人工智能安全

利用较小的大语言模型实现有害查询检测和安全响应，通过多任务学习机制融合两个任务到一个模型里，效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。

May, 2024

SafeSora: 通过人类偏好数据集实现文本到视频生成的安全对齐

为了减轻大规模视觉模型（LVMs）带来的有害输出的风险，我们引入了 SafeSora 数据集，促进文本到视频生成与人类价值观的对齐研究。该数据集包括帮助性和无害性两个主要维度上的人类偏好，并进一步细分为 4 个子维度和 12 个子类别。通过多个应用，我们展示了 SafeSora 数据集的实用性，例如培训文本 - 视频审查模型、通过对齐算法的微调来与人类偏好相对齐的 LVMs 等。这些应用突显了 SafeSora 数据集在文本到视频对齐研究中的潜力，例如人类偏好建模和对齐算法的开发与验证。

Jun, 2024

通过可控的大型语言模型实现安全性和帮助性平衡的响应

我们提出通过在大型语言模型中控制安全性和有益性来平衡多种用例，采用训练无关和微调方法来分析在语言模型中控制安全性和有益性的挑战，并通过实验验证了我们的方法可以控制模型并提供帮助。

Apr, 2024