Jan, 2023
受限 MDP 的安全后验采样与约束违规的界限控制
Safe Posterior Sampling for Constrained MDPs with Bounded Constraint Violation
Krishna C Kalagarla, Rahul Jain, Pierluigi Nuzzo
TL;DR本研究提出了一种基于后验抽样的强化学习算法 Safe PSRL,它能够在不需要安全策略的前提下有效地平衡探索和开发,并通过采用悲观主义的思想仅受到有界的约束违规,从而在理论和实践上得到了良好的表现。