大语言模型的单次安全对准
通过引入 Constrained DPO (C-DPO) 方法,本研究提出了一种高效且轻量级的方法,用于在基于人类反馈的强化学习 fine-tuning 阶段强制执行安全约束,从而在同时提高 AI 系统的有用性和安全性方面找到了几乎最优的平衡点。
Mar, 2024
通过两个代理人之间的迭代互动,通过生成展现防御代理人弱点的提示并根据奖励模型的反馈改进回应,本文在安全场景中理论上证明了这种反复强化学习优化会收敛到由代理人引发的博弈的纳什均衡,并实验证明了在这样竞争环境中的学习不仅可以充分训练代理人,而且还可以提高对抗性和防御性代理人的泛化能力。
Jun, 2024
研究控制一个在运作时间内有高概率保持期望安全集合的 Markov 决策过程的学习问题,使用一种约束的 Markov 决策过程来处理,通过提出一种问题的差分松弛方法,使得有最优安全保障的策略能够被发现。
Nov, 2019
利用 Safe Reinforcement Learning from Human Feedback(Safe RLHF)算法,通过训练单独的奖励和成本模型,实现了对大型语言模型(LLMs)在帮助性和无害性上进行人类价值调整,以最大化奖励函数并满足成本约束条件;通过实验证明与现有的值对齐算法相比,Safe RLHF 在减轻有害回应的能力和提高模型性能方面更为优越。
Oct, 2023
通过考虑成本估计的不确定性,我们提出了一种保守的策略优化方法,学习一个在满足限制条件的区域内的策略;并引入局部策略凸化方法逐渐减小估计的不确定性,以消除次优性。通过理论解释和实验证明,我们的方法在基准任务上不仅具有与最先进的同策略方法相媲美的渐近性能,而且在训练过程中显著减少了限制违规。
Jan, 2024
为了解决大型语言模型存在的偏见内容生成和隐私问题,研究引入了 Guide-Align 方法,该方法通过安全训练模型识别潜在风险并建立指南和模型库,然后用于新输入的相关指导,以确保安全和高质量输出,还可以通过精调模型来优化对多样输入的适应性和对指南库的全面性。实验证明该方法显著提高了大型语言模型的安全性和质量,尤其是在 13 亿参数下,优于 GPT-3.5-turbo 和 GPT-4 的对齐能力。
Mar, 2024
通过推出一种推理时攻击框架,研究表明安全对齐也可能在对抗性操作下无意中促进有害结果,实验证明其能够提高预训练模型的有害程度并在大多数评估子集中取得最高有害率,从而强调重评估安全对齐后的开源语言模型的重要性。
Feb, 2024
在涉及安全关键系统的众多强化学习问题中,平衡多个目标并同时满足严格的安全约束是一个关键挑战。为解决这个问题,我们提出了一个基于原始的框架,通过多目标学习和约束遵从性之间的策略优化来协调。我们的方法采用了一种新颖的自然策略梯度操作方法,用于优化多个强化学习目标,并克服不同任务之间冲突梯度,因为简单的加权平均梯度方向可能不利于特定任务的性能,原因在于不同任务目标的梯度不对齐。当出现硬约束违规时,我们的算法介入纠正策略以最小化违规。我们在表格设置中建立了理论收敛和约束违规保证。在具有挑战性的安全多目标强化学习任务上,我们提出的方法在实证上也优于先前最先进的方法。
May, 2024
提出了一个系统的框架来统一安全强化学习和鲁棒强化学习的问题,包括问题的形式化、迭代方案、收敛性分析和实际算法设计。该框架建立在有约束的两人零和马尔可夫博弈上,提出了一种双重策略迭代方案,同时优化任务策略和安全策略。证明了该迭代方案的收敛性。此外,还设计了一种用于实际实现的深度强化学习算法,称为 DRAC。安全关键的基准评估表明,DRAC 在所有情景下(无对手、安全对手、性能对手)实现了高性能和持续的安全性,并且明显优于所有基准线。
Sep, 2023