低秩MDPs中的高效双重扰动鲁棒性

Apr, 2024

Efficient Duple Perturbation Robustness in Low-rank MDPs

Yang Hu, Haitong Ma, Bo Dai, Na Li

TL;DR通过对低秩马尔科夫决策过程的特征和因子向量引入双重扰动鲁棒性的全新方法，解决了目前强化学习研究中存在的效率问题，提供了在具有大规模甚至连续状态-动作空间的实际问题中应用的可靠MDP算法以及理论收敛性保证。

Abstract

The pursuit of robustness has recently been a popular topic in reinforcement learning (RL) research, yet the existing methods generally suffer from efficiency issues that obstruct their real-world implementation.