利用 Safe Reinforcement Learning from Human Feedback(Safe RLHF)算法,通过训练单独的奖励和成本模型,实现了对大型语言模型(LLMs)在帮助性和无害性上进行人类价值调整,以最大化奖励函数并满足成本约束条件;通过实验证明与现有的值对齐算法相比,Safe RLHF 在减轻有害回应的能力和提高模型性能方面更为优越。
Oct, 2023
本文介绍了 PKU-SafeRLHF 数据集,旨在促进大型语言模型(LLMs)中的安全任务对齐研究。数据集包含 44.6k 个精细设定的提示和 265k 个问题 - 答案对,涵盖了 19 个伤害类别和从轻微到严重的三个严重程度级别,答案由 Llama 家族模型生成。利用大规模标注数据,我们进一步训练了对 LLMs 的风险控制的严重程度敏感的算法以及对 LLMs 的安全任务对齐的安全中心 RLHF 算法。我们相信这个数据集将成为社区宝贵的资源,有助于 LLMs 的安全部署。
Jun, 2024
通过 InferAligner 方法,在训练领域特定模型以及多模态的大语言模型时,有效降低了有害输入指令和越狱攻击的攻击成功率 (ASR),同时保持了下游任务性能的基本不变。
Jan, 2024
通过整合自评和倒带机制,本研究发现未对齐的大型语言模型(LLMs)可以通过自我增强直接生成与人类偏好一致的回答。引入一种新的推理方法 Rewindable Auto-regressive INference(RAIN),允许预训练的 LLMs 评估自身生成,并利用评估结果对维护 AI 安全进行倒带回溯和前向生成,无需额外数据进行模型对齐,也无需训练、渐变计算或参数更新。实验证明 RAIN 的有效性,改善了 LLaMA 30B 模型的无害率,同时在对抗性攻击下降低了攻击成功率。
Sep, 2023
应用偏好建模和强化学习的方法将语言模型优化为有帮助和无害的助手,对几乎所有的自然语言处理评估表现都有提高,与训练针对特定技能(如 Python 编程和摘要)的方法相容。通过迭代在线模式的训练,每周使用新的人类反馈数据更新偏好模型和强化学习策略,有效改进了数据集和模型。同时,研究了强化学习从人类反馈中学习的鲁棒性和重要性,提出了奖励和策略之间的 KL 散度平方根的近似线性关系。除此之外,对校准、竞争目标和 OOD 检测的使用进行了边缘分析,并将模型与人类作家进行了比较,并提供了使用最新相关工作中出现的提示的模型样本。
Apr, 2022
通过创建大规模、高质量、多样化的偏好数据集 ULTRAFEEDBACK,我们训练各种模型来展示其有效性,并在多个基准测试中取得最佳表现。
通过模型中人类反馈的学习,改进大型语言模型(LLMs)的输出与人类期望的一致性,利用人类反馈信号中以响应对的排名形式的强化学习,研究使用自然语言反馈模型的数据效率,通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进,提高了模型的响应质量。
Nov, 2023
本文提出一种基于回顾性指令重新标注的新算法 HIR,通过训练模型使其与指令更好地对齐,以解决语言模型中指令对齐的问题,并从 12 个挑战性的 BigBench 推理任务中的表现证明 HIR 优于基线算法,并且即使超过了有监督微调。
Feb, 2023
RRHF 是一种新的学习范式,通过排名损失函数对生成的回答进行评分,从而能够有效地将语言模型输出与人类偏好对齐,而且只需要 1 到 2 个模型进行调整,效果与微调相当。
Apr, 2023
通过使用合成指令替代真实指令进行数据注释和模型微调,通过定义差分隐私生成合成指令,匹配合成指令和真实指令的分布来实现所需效用,结果表明,使用合成指令进行监督微调的模型优于开源模型。
Feb, 2024