Mar, 2022

连续 MDP 计划中的深度反应策略样本高效迭代下界优化

TL;DR使用迭代式下限最大化 (ILBO) 方法可提高 DRP(Deep Reactive Policy)策略学习效率, 并在连续 MDPs 问题中得到更好的解决方案质量和更低的方差。