Jan, 2023

受限 MDP 的安全后验采样与约束违规的界限控制

TL;DR本研究提出了一种基于后验抽样的强化学习算法 Safe PSRL,它能够在不需要安全策略的前提下有效地平衡探索和开发,并通过采用悲观主义的思想仅受到有界的约束违规,从而在理论和实践上得到了良好的表现。