Dec, 2022

深度强化学习中的鲁棒策略优化

TL;DR本文介绍了一种名为 Robust Policy Optimization 的算法,该算法应用于强化学习中,利用扰动分布来提高策略的熵,提高探索性能,取得了比 PPO 等算法更好的性能表现,并在多个环境中表现出鲁棒性能。