Feb, 2024

SQT - std Q-target

TL;DRStd Q-target 是一种保守的,基于单一关键的 Q 公式:Q 网络标准差,在强化学习中解决过高估计的偏见问题,我们将 SQT 应用于 TD3/TD7 代码并在七种常见的 MuJoCo 和 Bullet 任务上与最先进的 actor-critic 算法 DDPG,TD3 和 TD7 进行测试,结果表明 SQT 在所有任务上相比于 DDPG,TD3 和 TD7 具有明显的性能优势。