May, 2023

质量多样性强化学习的近端策略梯度树形结构

TL;DR本文介绍如何使用高通量模拟器和在线学习方法相结合的 QD-RL 算法来训练能够在未知动态环境下表现良好的机器人,PPGA 算法在人形机器人领域实现了 4 倍的改进。