Feb, 2024

分布鲁棒离轨强化学习:通过线性函数逼近的证明效率

TL;DR我们研究在源域进行训练并在不同的目标域中部署的离线动态强化学习,通过在线分布鲁棒的马尔可夫决策过程来解决此问题,我们的学习算法在与源域交互时寻求在源域转移核不确定性集合中最坏动态下的最优性能。我们设计了一个使用总变差距离的 $d$- 长方形不确定性集合,通过去除额外的非线性性和绕过误差传播来解决 DRMDPs 的非线性问题,并引入了 DR-LSVI-UCB 算法,这是第一个在离线动态强化学习中具有函数逼近的可验证高效性的在线 DRMDP 算法,并建立了一个与状态和动作空间大小无关的多项式次优性界限。我们的工作是对在线 DRMDPs 与线性函数逼近的可验证高效性的深入理解的第一步。最后,我们通过不同的数值实验验证了 DR-LSVI-UCB 的性能和鲁棒性。