ICLRMar, 2023

模型强化学习中价值扩展方法的递减收益

TL;DR本文对用于连续控制问题的一类基于模型的价值扩展方法中的样本效率的问题进行了研究,并通过实验表明,在提升普通动力学模型的准确性时所增加的样本效率 marginally,远远达不到与无模型方法相当的表现。