Apr, 2023

强化学习中的受限制探索与最优性保护

TL;DR在强化学习问题中引入概念的受限探索与最优保持,在满足某些约束时保持学习的最优性,通过引入监督器控制行为,建立了一个反馈控制结构来建模无约束学习过程的动态,为知道确定性环境的强化学习问题建立了必要条件和充分条件。