Mar, 2022
连续 MDP 计划中的深度反应策略样本高效迭代下界优化
Sample-efficient Iterative Lower Bound Optimization of Deep Reactive Policies for Planning in Continuous MDPs
Siow Meng Low, Akshat Kumar, Scott Sanner
TL;DR使用迭代式下限最大化 (ILBO) 方法可提高 DRP(Deep Reactive Policy)策略学习效率, 并在连续 MDPs 问题中得到更好的解决方案质量和更低的方差。