减少规划缩减模型的负面副作用
机器人在组件故障的情况下需要调整其行为,以便在降低能力的条件下实现仍然可达的目标。我们在马尔可夫决策过程(MDP)框架中提出了在提前已知易受故障的执行机构的情况下进行规划的问题。该模型捕捉了基于利用驱动的故障和状态 - 动作相关的执行机构故障概率,以便推理潜在损伤和降低未来控制的长期影响。这导致了与忽略故障的计划有质的差异的行为。随着执行机构的故障,可能会出现组合数目众多的配置。我们识别出通过重用来节省计算的机会,利用不同配置产生密切相关问题的观察结果。我们的结果展示了如何获得战略解决方案,使机器人在故障发生时能够做出响应,例如谨慎地安排利用率以保留关键的执行机构。
May, 2024
该研究探讨了在模型不完备的情况下,通过估计预测不确定性(如起源于先验模型不充分的模型不适配性等因素)的方法,选择性地使用模型,以此提高强化学习算法的学习效果。
Jul, 2020
本文提出了新的模型,称为 “最小价值等效部分模型”,它只对环境的相关方面进行建模。通过实验证明,基于此类模型的规划方法具有可伸缩性和鲁棒性。
Jan, 2023
本文研究了利用强化学习中的策略网络作为自模型来规划行动的决策方法,结果表明,相比于自由模型,这种方法训练更稳定,推理速度更快,探索性更好,能够得到一种全面的自我行为理解。
Jun, 2023
提出了一种基于 metareasoning 的在线规划模型,用于解决实际场景下规划时间成本与策略改进的平衡问题,并通过引入 BRTDP 规划算法的特殊性质,提出了近似的元推理过程。
May, 2015
本文介绍了一种用于安全 MDP 规划的方法,它基于对状态 - 动作轨迹的安全度量,用监督学习模型学习非马尔可夫安全模式,并通过 Lagrange 乘子方法和计算图优化代理学习安全行为。实验结果表明,该方法可以满足非马尔可夫的安全约束条件,比马尔可夫 NCE 的先前最佳方法更好。
Apr, 2023
本文聚焦在有限状态有限时间的马尔科夫决策过程设置下的模型基 RL,证明了探索具有贪心策略可以实现紧密的极小极大性能,从而完全避免使用 full-planning,而复杂度降为 S,并通过实时动态规划进行了新颖的分析。
May, 2019
本研究提出了一种将现代投资组合理论(MPT)与强化学习相结合、针对离线数据训练进行风险管理的算法,通过集成 MPT, 该算法能够更好地解决离线强化学习中存在的不确定性问题,并在使用 Transformer 结构的情况下达到最优解。
Nov, 2022
本研究旨在解决强化学习中部分可观察马尔可夫决策过程带来的性能下降问题,并通过对表示视图的利用提出了一种可行的强化学习算法,可在部分观测输入下实现比现有算法更高的性能,推动可靠强化学习在实际应用中的应用。
Nov, 2023