Oct, 2024

局部线性性:无悔强化学习在连续马尔可夫决策过程中的关键

TL;DR本研究解决了连续状态和动作空间环境中无悔强化学习的重大挑战,指出现有方法存在的局限性。我们提出了“局部线性化马尔可夫决策过程”这一新概念,并引入了无悔算法Cinderella,证明其在已知可学习和可行的MDP家族中具备先进的后悔界限。此工作推动了无悔强化学习在连续MDP中的可行性和学习能力。