Oct, 2024

离线条件扩散规划器

TL;DR本研究解决了离线强化学习中数据稀缺的问题,提出了一种利用条件扩散概率模型(DPMs)的方法,以学习大规模离线数据集和有限目标数据集的联合分布。研究结果表明,该方法在多个基准测试中显著优于其他强有力的基线,并通过改变上下文,使模型在源动态与目标动态之间进行插值,从而增强了对环境细微变化的鲁棒性。