无须试错:通过人类干预实现安全强化学习
本文研究强化学习中的安全中断问题,提出了针对分散学习问题的动态安全中断定义,并探讨了在联合行动学习者和独立学习者中的应用,提出了可行的必要条件,并指出在独立学习者中使用动态安全中断需要添加特定算法。
Apr, 2017
在本文中,我们提出了一个算法,它能够解决深度强化学习在Atari游戏集上遇到的三个关键难题,包括处理不同密度和规模的奖励分布、思考长时间序列以及有效地探索,该算法超过了人类在40个游戏上的表现,其中包括 Montezuma's Revenge 的第一关。
May, 2018
为了将RL算法部署到实际场景中并在学习过程中确保安全性,我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性,然后将所学用于约束在学习新任务时的行为,此方法在三个具有挑战性的领域中实证,相比于标准的深度RL技术和以前的安全RL方法,我们的方法不但减少了安全事故,还提高了学习的速度和稳定性。
Oct, 2020
提出了一个新的算法SAILR,该算法使用基于优势函数的干预机制在训练期间保持代理的安全,并使用为无约束MDP设计的现成强化学习算法来优化代理的策略。在使用实验证明了该算法在训练和部署期间都具有较强的安全性和良好的策略表现。
Jun, 2021
利用Safe Reinforcement Learning from Human Feedback(Safe RLHF)算法,通过训练单独的奖励和成本模型,实现了对大型语言模型(LLMs)在帮助性和无害性上进行人类价值调整,以最大化奖励函数并满足成本约束条件;通过实验证明与现有的值对齐算法相比,Safe RLHF在减轻有害回应的能力和提高模型性能方面更为优越。
Oct, 2023
通过综述方法与开放问题对最近几年来RL的安全和稳健性的相关研究工作进行总结,本文主要关注RL系统在现实场景中的安全性和稳健性挑战,探讨了算法、伦理和实践考虑等方面的主要维度以及如何增强RL代理的安全性和稳健性,同时讨论了环境因素和人的参与等影响因素,最后提出了一个实用的检查清单,以帮助从业者在各个应用领域负责任地部署RL系统。
Mar, 2024
在训练过程中,通过使用一种名为ADVICE的自适应屏蔽技术,可以识别出状态-动作对的安全和不安全特征,从而保护强化学习代理避免执行可能产生危险结果的动作,有效降低安全违规风险。
May, 2024