May, 2024

没有代表,没有信任:连接 PPO 中的代表、崩溃和信任问题

TL;DR通过对 Atari 和 MuJoCo 环境中的 PPO 代理的实证研究,揭示了 PPO 代理受特征秩降低和可塑性丧失的影响,这一现象加剧了强非稳态性,最终导致演员的性能崩溃,无论评论家的性能如何。我们建立了表示崩溃、性能崩溃和 PPO 中的信任域问题之间的联系,并提出了一种名为 PFO 的新型辅助损失,通过调节表示动态改善 PPO 代理的性能。