Apr, 2024

低秩MDPs中的高效双重扰动鲁棒性

TL;DR通过对低秩马尔科夫决策过程的特征和因子向量引入双重扰动鲁棒性的全新方法,解决了目前强化学习研究中存在的效率问题,提供了在具有大规模甚至连续状态-动作空间的实际问题中应用的可靠MDP算法以及理论收敛性保证。