Jan, 2024

扩展状态奖励空间的情节强化学习

TL;DR通过引入扩展状态 - 奖励空间的高效 EC-based DRL 框架,我们的方法能够同时充分利用检索信息和通过时序差分 (TD) 损失更好地评估状态值,从而在具有挑战性的任务中表现出优越性。