Apr, 2022

RAMBO-RL:稳健性对抗性基于模型离线强化学习

TL;DR提出 Robust Adversarial Model-Based Offline RL(RAMBO),通过将问题建模为针对对手环境模型的两人零和博弈,训练出简单而精确地预测数据集过渡的模型和谨慎的策略,具有理论支持和比现有基线更出色的性能。