Oct, 2023

模型为基础的强化学习中的优先倾向

TL;DR针对模型驱动的强化学习中的原生偏见问题,提出了一种名为“世界模型重置”的方法,并在多个连续控制任务和离散控制任务中验证了该方法的有效性。