Oct, 2023
模型基强化学习的多时间步模型
Multi-timestep models for Model-based Reinforcement Learning
Abdelhakim Benechehab, Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Balázs Kégl
TL;DR模型驱动的强化学习中,通过使用多时间步目标训练一步预测模型来解决一步预测误差在轨迹增长时的累积问题,实验证明指数衰减权重能显著提高长期视野得分,尤其在嘈杂环境下,展示了该方法在实际应用中的潜力。