Jun, 2024

具有对抗性辅助模型的强化学习鲁棒模型

TL;DR应用鲁棒 MDPs 框架及引入一种新型的学习过渡模型,该研究在模型为基础的环境中通过辅助悲观模型来提高策略的鲁棒性,并在实验中展示了该模型在失真 MDPs 中提高学习策略性能的显著改进。