传奇：利用表征工程为偏好数据集标注安全边界

Jun, 2024

传奇：利用表征工程为偏好数据集标注安全边界

Legend: Leveraging Representation Engineering to Annotate Safety Margin for Preference Datasets

Duanyu Feng, Bowen Qin, Chen Huang, Youcheng Huang, Zheng Zhang...

TL;DR我们提出了一种有效且高效的框架来推动边界增强的偏好数据集的发展，通过利用语义距离对配对响应沿着安全方向进行自动标注，并在奖励建模和安全对齐方面进行了实验验证。

Abstract

The success of the reward model in distinguishing between responses with subtle safety differences depends critically on the high-quality preference dataset, which should capture the fine-grained nuances of harmful and harmless responses. This motivates the need to develop a dataset in

reward model preference dataset margin-enhanced legend framework llms alignment

发现论文，激发创造

探索奖励差距对偏好模型性能的影响

从人类反馈中进行强化学习（RLHF）是一种广泛使用的语言模型训练框架。我们的研究发现，使用传统的基于人类偏好数据的排名目标来训练现有的奖励模型时，往往难以有效区分在真实场景中更受欢迎或不受欢迎的回应。为了弥补这一差距，我们的研究引入了一种新的方法来估计偏好差异，而无需从人类注释员那里获得详细的详尽标签。我们的实验结果从经验上证明，将边界值纳入训练过程中显著提高了奖励模型的效果。这种比较分析不仅展示了我们的方法在奖励预测准确性方面的优越性，还突出了它在实际应用中的有效性。

Apr, 2024

PKU-SafeRLHF: Llama 家族模型的安全对齐偏好数据集

本文介绍了 PKU-SafeRLHF 数据集，旨在促进大型语言模型（LLMs）中的安全任务对齐研究。数据集包含 44.6k 个精细设定的提示和 265k 个问题 - 答案对，涵盖了 19 个伤害类别和从轻微到严重的三个严重程度级别，答案由 Llama 家族模型生成。利用大规模标注数据，我们进一步训练了对 LLMs 的风险控制的严重程度敏感的算法以及对 LLMs 的安全任务对齐的安全中心 RLHF 算法。我们相信这个数据集将成为社区宝贵的资源，有助于 LLMs 的安全部署。

Jun, 2024

用自动生成的偏好数据对齐大型语言模型

通过自动生成的优先数据 (Selfie) 和少量的人工标注优先数据，我们提出了一种新的框架，可以显著增强大型语言模型的对齐性能，进一步提取模型的内在偏好。

Jun, 2024

在大型语言模型的优化过程中测量风险：导航安全景观

通过测量和可视化大型语言模型（LLMs）的安全景观，我们发现了一种称为 “安全盆地” 的普遍现象，该现象在流行的开源 LLMs 模型参数空间中观察到。我们提出了一种新的安全度量标准，VISAGE 安全度量标准，用于通过探测安全景观来衡量 LLMs 微调的安全性，并通过可视化的安全景观了解 LLMs 通过微调如何降低其安全性。LLMs 的安全景观还突出了系统提示在保护模型中的关键作用，并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于 LLMs 安全性的工作提供了新的见解。

May, 2024

从再现性伤害到服务质量伤害：一项关于 “羊驼 2” 安全保障的案例研究

通过对 Llama 2 的案例进行研究，评估了安全措施对已减轻的偏见的效果，并发现安全与有益性的权衡在某些人群中更加明显，可能对边缘化群体造成服务质量损害。

Mar, 2024

Do-Not-Answer: 评估 LLMs 中的保障措施的数据集

通过开发一个标注的数据集，本文研究了大型语言模型的危险能力评估，并展示了使用 BERT 类别分类器在自动安全评估中能够获得与 GPT-4 相媲美的结果。

Aug, 2023

SPA-VL：用于视觉语言模型的全面安全偏好对齐数据集

提出了一种名为 SPA-VL 的视觉语言模型安全偏好对齐数据集，通过在此数据集上使用对齐技术进行训练，可以显著提高模型在无害性和有益性方面的表现，同时保持其核心能力。

Jun, 2024

通过受限的直接优化倾向提升 LLM 的安全性

通过引入 Constrained DPO (C-DPO) 方法，本研究提出了一种高效且轻量级的方法，用于在基于人类反馈的强化学习 fine-tuning 阶段强制执行安全约束，从而在同时提高 AI 系统的有用性和安全性方面找到了几乎最优的平衡点。

Mar, 2024

Safer-Instruct: 与自动偏好数据对齐的语言模型

Safer-Instruct 是一种半自动构建大规模偏好数据集的新型流程，利用反向指令调整、指令归纳和专家模型评估，高效生成高质量的偏好数据，改善模型安全性并在会话和下游任务上保持竞争性能。

Nov, 2023

LIRE：面向偏好对齐的逐项奖励增强

提出了一种基于梯度的奖励优化方法 Listwise Reward Enhancement for Preference Alignment (LIRE)，将多个回复的离线奖励融入到简化的列表框架中，从而在训练过程中不需要在线采样。通过自我增强算法，LIRE 在对话和摘要任务的多个基准测试中持续优于现有方法，并且在使用代理奖励模型和人工标注者进行评估时具有良好的迁移性。

May, 2024