Jun, 2024

具有对抗性辅助模型的强化学习鲁棒模型

TL;DR应用鲁棒MDPs框架及引入一种新型的学习过渡模型,该研究在模型为基础的环境中通过辅助悲观模型来提高策略的鲁棒性,并在实验中展示了该模型在失真MDPs中提高学习策略性能的显著改进。