Jan, 2024

打开黑盒子:基于步骤的策略更新用于有时间相关性的情节式强化学习

TL;DR当前强化学习的研究主要关注于学习基于步骤的策略,而忽略了动作之间的时间相关性,本文介绍了一种新颖的强化学习算法,Temporally-Correlated Episodic RL (TCE),该算法有效地利用了步骤信息并在参数空间中打开了现有 ERL 方法中的 “黑箱”,同时保持平滑和一致的探索,并在数据效率方面具有类似于最新基于步骤的强化学习方法的性能。