为了将RL算法部署到实际场景中并在学习过程中确保安全性,我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性,然后将所学用于约束在学习新任务时的行为,此方法在三个具有挑战性的领域中实证,相比于标准的深度RL技术和以前的安全RL方法,我们的方法不但减少了安全事故,还提高了学习的速度和稳定性。
Oct, 2020
该研究提出了一种名为SEditor的方法,使用安全编辑器策略来解决安全强化学习问题,将不安全的动作转换为安全的动作,同时最大化约束回报和利益回报。在测试中,SEditor在高约束准则下具有突出的效果,并表现出令人满意的实用性能,甚至在障碍密集型环境下,也可以将约束违规率降低到每 2000 步仅一次。
Jan, 2022
在模型无关强化学习中,通过引入安全状态来解决安全成本稀疏和未知的问题,其价值也作为违约距离,初始值反映了可用的安全预算。该方法有助于制定安全预算调度策略,称为Simmer,可提高两种安全强化学习问题的安全性,提高平均约束下安全强化学习的性能。
Jun, 2022
该研究提出了一种解决增强学习自动合成策略的算法,该算法通过解决奖励形状设计和安全策略更新等挑战来实现,同时使用基于模型的RL算法来有效地利用我们收集的数据,并在标准控制基准中展示了其有效性和鲁棒性。
Oct, 2022
本文综述了在强化学习中解决状态限制问题的现存方法并比较了它们在安全性、可伸缩性、奖励表现等方面的差异和权衡,同时总结了当前方法的局限性并探讨了未来的研究方向。
Feb, 2023
开发了第一个近似最优的安全强化学习算法,适用于具有不安全状态和行动及瞬间硬性约束和线性混合模型的情况。
通过模仿学习和轨迹标记的方法,解决强化学习中的约束问题,并在实验中展示了其优越性能。
Dec, 2023
这篇论文研究了在强化学习过程中如何保证训练的安全性,通过提出一种新的架构处理效率和安全性之间的权衡,并利用贝叶斯推理和马尔可夫决策过程来近似风险,并通过实验结果展示了整体架构的性能。
基于约束条件的安全强化学习方法在实现安全优化代理策略方面发挥了重要作用,本研究综述了代表性约束形式以及专为每种形式设计的算法,并揭示了常见问题形式之间的数学相互关系,最后讨论了安全强化学习研究的现状和未来方向。
Feb, 2024
本研究解决了安全离线强化学习中的策略优化与安全约束平衡问题,传统方法常面临性能下降或安全风险增加的困境。我们提出了一种新方法,通过条件变分自编码器学习保守安全策略,并将其转化为约束奖励回报最大化问题,以实现奖励优化和安全合规。本方法在理论分析和实证评估中表现出色,尤其在自主驾驶等复杂场景中优于现有方法。
Dec, 2024