强化学习用于带有动作约束的任务规定
本文提出了一种从机器人演示中学习非马尔可夫奖励的方法,通过最大后验概率推断问题,采用最大熵原理推导出演示似然模型,并用有效的方法在候选规范的大池中搜索最有可能的规范,实验表明学习规范有助于避免由于即席奖励组合而经常出现的常见问题。
Oct, 2017
研究未知的CMDP和两种RL算法的关系,在满足安全约束的情况下,探索样本复杂性。结果表明,相对于不受约束的情况,受约束的RL算法的样本复杂性增加的因子是约束数量的对数,该方法可以在实际系统中轻松使用。
Aug, 2020
本文提出了一种新的强化学习算法来应对现实世界中存在的约束条件问题,该算法将成本累加约束转化为基于状态的约束,并确保代理在训练过程中满足这些约束,同时保证其最大化回报。实验证明这种基于深度神经网络的算法在安全导航任务和约束版MuJoCo环境中表现出色。
Aug, 2020
该研究提出了一种针对MDP的决策学习与规划框架,其中决策制定者执行的动作有$m$步的延迟,研究表明使用非恒定的马尔科夫策略,可以在非常大的延迟下实现最大化奖励,并介绍了一种无需状态增强即可解决延迟执行任务的Q-learning风格模型。
Jan, 2021
该研究提出了一种解决增强学习自动合成策略的算法,该算法通过解决奖励形状设计和安全策略更新等挑战来实现,同时使用基于模型的RL算法来有效地利用我们收集的数据,并在标准控制基准中展示了其有效性和鲁棒性。
Oct, 2022
本文综述了在强化学习中解决状态限制问题的现存方法并比较了它们在安全性、可伸缩性、奖励表现等方面的差异和权衡,同时总结了当前方法的局限性并探讨了未来的研究方向。
Feb, 2023
在强化学习问题中引入概念的受限探索与最优保持,在满足某些约束时保持学习的最优性,通过引入监督器控制行为,建立了一个反馈控制结构来建模无约束学习过程的动态,为知道确定性环境的强化学习问题建立了必要条件和充分条件。
Apr, 2023
我们提出了一种基于在线强化学习算法的约束马尔可夫决策过程,其中包含一个安全约束。通过线性规划算法,我们演示了学习到的策略在很高的置信度下是安全的。我们还提出了计算安全基准策略的方法,并演示了该算法的有效性。同时,我们通过定义状态空间的子集,称为代理集,实现了高效的探索。
Mar, 2024
在安全强化学习中,我们设计了一个安全模型来评估部分状态-动作轨迹对安全性的贡献,并使用RL-as-inference策略推导出了一种有效的优化安全策略的算法,最后,我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法,实证结果表明这种方法规模可扩展且能满足复杂的非Markov安全约束。
May, 2024