Jun, 2024

CUER:适用于离策略连续深度强化学习算法的修正统一体验重播

TL;DR本文提出了一种新算法 CUER,该算法在考虑所有其他经验的公平性的同时,通过使采样状态分布更接近于策略,以解决经验回放中转换重要性动态调整的问题,从而在样本效率、最终性能和训练期间策略的稳定性方面显著提高离策略连续控制算法。