Jul, 2022

可行的针对不完全规定环境的对抗鲁棒强化学习

TL;DR本文提出了可行的对抗性强化学习 (FARR) 方法来自动确定环境参数的范围,通过将该问题作为二人零和博弈,最优化 FARR 目标可以在可行支持上产生对抗性分布和策略鲁棒,在参数化的网格世界和三个 MuJoCo 控制环境中证明,使用 FARR 训练的优化代理相对于现有的极小化、域随机化和后悔目标在可行对抗参数选择上更具鲁棒性。