Apr, 2023

深度强化学习中的对抗策略优化

TL;DR本文提出了一种新的强化学习算法APO,该算法利用max-min博弈理论减轻数据扩充带来的过拟合问题,提高了学习策略的效率,并对几个DeepMind控制机器人环境的高维度和噪声状态设置进行了评估。实证结果表明,我们的方法APO在性能上始终优于最先进的基于策略的PPO代理,并且与最先进的数据增强,RAD和基于正式的DRAC等方法进行了比较。