Nov, 2024

具有线性结构的稳健离线强化学习与$f$-散度正则化

TL;DR本研究针对现有稳健正则化马尔可夫决策过程(RRMDP)方法在面对微观不确定性的过度保守性问题,通过提出一种新的$d$-矩形线性稳健正则化马尔可夫决策过程($d$-RRMDP)框架,进行了创新性调整。该框架在离线强化学习中引入线性潜在结构,并开发了一系列算法(R2PVI),新方法在政策的稳健性及计算效率上显著优于传统的DRMDP方法。