Jul, 2024

PG-Rainbow:在策略梯度方法中应用分布式强化学习

TL;DR利用PG-Rainbow算法,在分布式强化学习框架中整合策略梯度算法,通过使用含有奖励分布信息的隐式分位网络,使策略代理能够全面评估给定状态下潜在动作的后果,提升决策能力。在Atari-2600游戏套件(通过Arcade Learning Environment模拟)中评估了该算法的性能。