Oct, 2023

通过DreamerV3技巧提高 Proximal Policy Optimization 的奖励尺度鲁棒性

TL;DR基于模型方法 DreamerV3 的实验研究,揭示了 DreamerV3 的技巧在强化学习算法 PPO 中不适用的情况,同时还对技巧的实现方式及其对性能的影响进行了深入分析。