Feb, 2022

强化学习中可微分多样性的梯度逼近

TL;DR探讨在训练鲁棒性强的机器人智能体中,使用多样化的代理策略以提高质量多样性优化问题的效率。通过两种导数近似方法实现多样性质量优化算法,并使用四种机器人仿真测试其性能,揭示当前算法在需要近似梯度的领域中的局限性。