Feb, 2024
分布鲁棒离轨强化学习: 通过线性函数逼近的证明效率
Distributionally Robust Off-Dynamics Reinforcement Learning: Provable
Efficiency with Linear Function Approximation
TL;DR我们研究在源域进行训练并在不同的目标域中部署的离线动态强化学习,通过在线分布鲁棒的马尔可夫决策过程来解决此问题,我们的学习算法在与源域交互时寻求在源域转移核不确定性集合中最坏动态下的最优性能。我们设计了一个使用总变差距离的$d$-长方形不确定性集合,通过去除额外的非线性性和绕过误差传播来解决DRMDPs的非线性问题,并引入了DR-LSVI-UCB算法,这是第一个在离线动态强化学习中具有函数逼近的可验证高效性的在线DRMDP算法,并建立了一个与状态和动作空间大小无关的多项式次优性界限。我们的工作是对在线DRMDPs与线性函数逼近的可验证高效性的深入理解的第一步。最后,我们通过不同的数值实验验证了DR-LSVI-UCB的性能和鲁棒性。