Safer-Instruct: 与自动偏好数据对齐的语言模型

Nov, 2023

Safer-Instruct: 与自动偏好数据对齐的语言模型

Safer-Instruct: Aligning Language Models with Automated Preference Data

Taiwei Shi, Kai Chen, Jieyu Zhao

TL;DRSafer-Instruct 是一种半自动构建大规模偏好数据集的新型流程，利用反向指令调整、指令归纳和专家模型评估，高效生成高质量的偏好数据，改善模型安全性并在会话和下游任务上保持竞争性能。

Abstract

reinforcement learning from human feedback (RLHF) is a vital strategy for enhancing model safety in language models. However, annotating preferen

reinforcement learning from human feedback model safety preference data safer-instruct instruction induction

发现论文，激发创造

Safe RLHF: 安全的强化学习从人类反馈中

利用 Safe Reinforcement Learning from Human Feedback（Safe RLHF）算法，通过训练单独的奖励和成本模型，实现了对大型语言模型（LLMs）在帮助性和无害性上进行人类价值调整，以最大化奖励函数并满足成本约束条件；通过实验证明与现有的值对齐算法相比，Safe RLHF 在减轻有害回应的能力和提高模型性能方面更为优越。

Oct, 2023

PKU-SafeRLHF: Llama 家族模型的安全对齐偏好数据集

本文介绍了 PKU-SafeRLHF 数据集，旨在促进大型语言模型（LLMs）中的安全任务对齐研究。数据集包含 44.6k 个精细设定的提示和 265k 个问题 - 答案对，涵盖了 19 个伤害类别和从轻微到严重的三个严重程度级别，答案由 Llama 家族模型生成。利用大规模标注数据，我们进一步训练了对 LLMs 的风险控制的严重程度敏感的算法以及对 LLMs 的安全任务对齐的安全中心 RLHF 算法。我们相信这个数据集将成为社区宝贵的资源，有助于 LLMs 的安全部署。

Jun, 2024

InferAligner: 通过跨模型指导实现无害性的推理时间对齐

通过 InferAligner 方法，在训练领域特定模型以及多模态的大语言模型时，有效降低了有害输入指令和越狱攻击的攻击成功率 (ASR)，同时保持了下游任务性能的基本不变。

Jan, 2024

RAIN: 语言模型可以自动对齐，无需微调

通过整合自评和倒带机制，本研究发现未对齐的大型语言模型（LLMs）可以通过自我增强直接生成与人类偏好一致的回答。引入一种新的推理方法 Rewindable Auto-regressive INference（RAIN），允许预训练的 LLMs 评估自身生成，并利用评估结果对维护 AI 安全进行倒带回溯和前向生成，无需额外数据进行模型对齐，也无需训练、渐变计算或参数更新。实验证明 RAIN 的有效性，改善了 LLaMA 30B 模型的无害率，同时在对抗性攻击下降低了攻击成功率。

Sep, 2023

利用人类反馈进行强化学习训练有益且无害的助手

应用偏好建模和强化学习的方法将语言模型优化为有帮助和无害的助手，对几乎所有的自然语言处理评估表现都有提高，与训练针对特定技能（如 Python 编程和摘要）的方法相容。通过迭代在线模式的训练，每周使用新的人类反馈数据更新偏好模型和强化学习策略，有效改进了数据集和模型。同时，研究了强化学习从人类反馈中学习的鲁棒性和重要性，提出了奖励和策略之间的 KL 散度平方根的近似线性关系。除此之外，对校准、竞争目标和 OOD 检测的使用进行了边缘分析，并将模型与人类作家进行了比较，并提供了使用最新相关工作中出现的提示的模型样本。

Apr, 2022

超级反馈：通过高质量反馈提升语言模型

通过创建大规模、高质量、多样化的偏好数据集 ULTRAFEEDBACK，我们训练各种模型来展示其有效性，并在多个基准测试中取得最佳表现。

Oct, 2023

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

回顾智慧让语言模型成为更好的指令跟随者

本文提出一种基于回顾性指令重新标注的新算法 HIR，通过训练模型使其与指令更好地对齐，以解决语言模型中指令对齐的问题，并从 12 个挑战性的 BigBench 推理任务中的表现证明 HIR 优于基线算法，并且即使超过了有监督微调。

Feb, 2023

RRHF：无需痛苦排名回应，将语言模型与人类反馈对齐

RRHF 是一种新的学习范式，通过排名损失函数对生成的回答进行评分，从而能够有效地将语言模型输出与人类偏好对齐，而且只需要 1 到 2 个模型进行调整，效果与微调相当。

Apr, 2023

大型语言模型对齐的隐私保护指令

通过使用合成指令替代真实指令进行数据注释和模型微调，通过定义差分隐私生成合成指令，匹配合成指令和真实指令的分布来实现所需效用，结果表明，使用合成指令进行监督微调的模型优于开源模型。

Feb, 2024