Oct, 2022

基于规划的探索:关于最优轨迹信息的研究

TL;DR通过规划最大化任务最优轨迹的期望信息增益的行动序列,使得该方法在较低的样本量下能够学习较强的策略,比探索基线算法少用 2 倍样本,比模型自由方法少用 200 倍样本。