Jan, 2024

通过保守密度估计学习稀疏离线数据集

TL;DR该论文提出了一种名为保守密度估计(CDE)的新的训练算法,通过对状态-动作占据稳态分布明确定义约束条件,解决了离线强化学习中的样本外推错误问题,该方法在稀疏奖励或数据不足的情况下实现了最先进的性能,对于具有挑战性的任务,CDE方法始终优于基线模型,展示了我们方法在离线强化学习中解决外推错误问题的优势。