减少规划缩减模型的负面副作用

AAAIMay, 2019

Minimizing the Negative Side Effects of Planning with Reduced Models

PDF

Sandhya Saisubramanian, Shlomo Zilberstein

TL;DR本文介绍了在使用缩减模型进行规划时，因考虑不完全的状态而导致重新规划变得危险的负面影响。为了在尽可能减少负面影响的情况下使用缩减模型，我们提出了使用一个缩减模型组合的规划方法，通过交替使用不同的结果选择方法，以最小化负面影响。

Abstract

reduced models of large markov decision processes accelerate planning by considering a subset of →

reduced models markov decision processes planning outcomes portfolio

发现论文，激发创造

一种面向容错执行器的最优弹性规划模型

机器人在组件故障的情况下需要调整其行为，以便在降低能力的条件下实现仍然可达的目标。我们在马尔可夫决策过程（MDP）框架中提出了在提前已知易受故障的执行机构的情况下进行规划的问题。该模型捕捉了基于利用驱动的故障和状态 - 动作相关的执行机构故障概率，以便推理潜在损伤和降低未来控制的长期影响。这导致了与忽略故障的计划有质的差异的行为。随着执行机构的故障，可能会出现组合数目众多的配置。我们识别出通过重用来节省计算的机会，利用不同配置产生密切相关问题的观察结果。我们的结果展示了如何获得战略解决方案，使机器人在故障发生时能够做出响应，例如谨慎地安排利用率以保留关键的执行机构。

May, 2024

有限模型容量下的选择性 Dyna-style 规划

该研究探讨了在模型不完备的情况下，通过估计预测不确定性（如起源于先验模型不充分的模型不适配性等因素）的方法，选择性地使用模型，以此提高强化学习算法的学习效果。

Jul, 2020

生命周期强化学习中的可扩展和鲁棒计划的最小价值等价部分模型

本文提出了新的模型，称为 “最小价值等效部分模型”，它只对环境的相关方面进行建模。通过实验证明，基于此类模型的规划方法具有可伸缩性和鲁棒性。

Jan, 2023

双策略作为规划自我模型

本文研究了利用强化学习中的策略网络作为自模型来规划行动的决策方法，结果表明，相比于自由模型，这种方法训练更稳定，推理速度更快，探索性更好，能够得到一种全面的自我行为理解。

Jun, 2023

不确定环境下的规划元推理

提出了一种基于 metareasoning 的在线规划模型，用于解决实际场景下规划时间成本与策略改进的平衡问题，并通过引入 BRTDP 规划算法的特殊性质，提出了近似的元推理过程。

May, 2015

通过学习不良轨迹的时间模式和避免负面副作用来进行安全的 MDP 规划

本文介绍了一种用于安全 MDP 规划的方法，它基于对状态 - 动作轨迹的安全度量，用监督学习模型学习非马尔可夫安全模式，并通过 Lagrange 乘子方法和计算图优化代理学习安全行为。实验结果表明，该方法可以满足非马尔可夫的安全约束条件，比马尔可夫 NCE 的先前最佳方法更好。

Apr, 2023

使用逐步相对可达性惩罚副作用

该研究提出了一种新的强化学习机制，通过改变基线状态和偏差度量方式，避免了当前惩罚副作用存在的一些不良激励，实验证明该机制的效果优于传统的设计方法。

Jun, 2018

基于模型的强化学习中贪心策略的严格遗憾界

本文聚焦在有限状态有限时间的马尔科夫决策过程设置下的模型基 RL，证明了探索具有贪心策略可以实现紧密的极小极大性能，从而完全避免使用 full-planning，而复杂度降为 S，并通过实时动态规划进行了新颖的分析。

May, 2019

华尔街树搜索：离线强化学习的风险感知规划

本研究提出了一种将现代投资组合理论（MPT）与强化学习相结合、针对离线数据训练进行风险管理的算法，通过集成 MPT, 该算法能够更好地解决离线强化学习中存在的不确定性问题，并在使用 Transformer 结构的情况下达到最优解。

Nov, 2022

可验证的表示与高效规划用于部分可观察强化学习

本研究旨在解决强化学习中部分可观察马尔可夫决策过程带来的性能下降问题，并通过对表示视图的利用提出了一种可行的强化学习算法，可在部分观测输入下实现比现有算法更高的性能，推动可靠强化学习在实际应用中的应用。

Nov, 2023