May, 2022

强健的马尔可夫决策流程即时学习

TL;DR本文介绍了一种鲁棒的任意学习方法,该方法结合了贝叶斯推断模型和计算稳健策略的方法,以不确定性马尔科夫决策过程(uMDPs)为基础,并通过实验验证了该方法的有效性。