Oct, 2023

模型基强化学习的多时间步模型

TL;DR模型驱动的强化学习中,通过使用多时间步目标训练一步预测模型来解决一步预测误差在轨迹增长时的累积问题,实验证明指数衰减权重能显著提高长期视野得分,尤其在嘈杂环境下,展示了该方法在实际应用中的潜力。