Apr, 2022
RAMBO-RL:稳健性对抗性基于模型离线强化学习
RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning
Marc Rigter, Bruno Lacerda, Nick Hawes
TL;DR提出 Robust Adversarial Model-Based Offline RL(RAMBO),通过将问题建模为针对对手环境模型的两人零和博弈,训练出简单而精确地预测数据集过渡的模型和谨慎的策略,具有理论支持和比现有基线更出色的性能。