通过模仿学习和轨迹标记的方法,解决强化学习中的约束问题,并在实验中展示了其优越性能。
Dec, 2023
本文提出了第一个使用因果模型来形式化定义伤害和益处的方法,并证明了不能进行反事实推理的标准机器学习算法在损害易变的情况下必定追求有害政策。并利用我们对伤害的定义,设计了一种用于决策的框架,以减少伤害。这个框架是利用反事实目标函数。我们用药物反应模型从随机对照试验的数据中学习,展示了这个框架在识别最佳药物剂量问题上的应用。我们发现,使用治疗效果选择剂量的标准方法会导致不必要的伤害,而我们的反事实方法允许我们识别出大大减少伤害而不损失疗效的剂量。
Apr, 2022
基于约束条件的安全强化学习方法在实现安全优化代理策略方面发挥了重要作用,本研究综述了代表性约束形式以及专为每种形式设计的算法,并揭示了常见问题形式之间的数学相互关系,最后讨论了安全强化学习研究的现状和未来方向。
Feb, 2024
提出一种针对强化学习任务的风险预防训练方法,基于统计对比分类器,以预测状态 - 动作对导致不安全状态的概率,并且通过收集风险预防轨迹和重塑奖励函数,来引导安全强化学习策略。在机器人仿真环境中进行实验,结果表明该方法与现有的模型模式方法的表现相当,且优于传统的模型自由的安全强化学习方法。
Sep, 2022
在安全强化学习中,我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献,并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法,最后,我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法,实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。
May, 2024
提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题,其中基准策略可以来自示范数据或教师代理,并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中,该算法始终优于多个最先进的基线算法,并在平均回报上提高了 40%,约 10 倍少的约束违规行为。
Jun, 2020
本研究关注应用于现实世界问题中的强化学习算法,提出了一种基于模型的算法可以规避不安全状态并降低安全违规,在连续控制任务中取得相当的回报.
Feb, 2022
本文提出了两种新的安全强化学习方法,即 SafeFallback 和 GiveSafe,其安全约束公式与 RL 公式分离,可提供硬约束满足保证,且无需解决数学问题,从而降低计算能力要求,并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略,同时提供硬约束保证,并在模拟多能源系统案例研究中验证了方法的有效性。
Jul, 2022
本文展示了一种使用利用现有的 normative supervisor 框架的方法,通过 MORL 技术以平衡非道德目标和避免违规的道德目标,在自主代理中实现安全、道德或合法行为,且不受惩罚强度大小的影响。
Mar, 2022
安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法,通过在受控环境中训练引导智能体以安全探索,最终实现有效的安全传输学习,帮助学生机器人更快地解决目标任务。
Jul, 2023