Jan, 2023

近端策略优化的联合动作损失

TL;DR本文提出了一种计算每个子动作损失的多动作混合损失,并在 Gym-μRTS 和 MuJoCo 环境中进行了实验。结果表明相比于 OpenAI 的 PPO 基准结果,该方法可以将性能提高 50%以上,并且在 Gym-μRTS 中,子动作损失表现出优于标准 PPO 方法的效果,尤其是在截断范围较大时。