Mar, 2024
分布鲁棒离线强化学习的极小极大最优和计算高效算法
Minimax Optimal and Computationally Efficient Algorithms for
Distributionally Robust Offline Reinforcement Learning
TL;DR分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法,当面对大规模状态-动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法,通过对线性参数化的模型进行实现,探索了实例依赖次优性分析在鲁棒离线强化学习中的应用,并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。