May, 2023

存在对称性和状态抽象的策略梯度方法

TL;DR本研究旨在通过抽象来提高强化学习在高维度和复杂问题上的效率和泛化能力,并在连续控制环境中研究抽象的概念,提出了一系列基于异构度量的策略梯度算法以及具有连续对称性的环境来证明该算法的效果,结果表明该算法利用 MDP 同态性进行表示学习可以提高其性能。