Jun, 2024

使用基于模型的离线强化学习解决长期任务

TL;DR通过使用学习模型生成虚拟轨迹来解决学习有限、静态数据挑战的基于模型的离线强化学习方法,通过使用期望回归和λ-returns来缓解模型轨迹中的高偏差,在处理长时程任务方面明显优于以前的方法,同时与基于模型和无模型的方法在评估任务上效果相当。