Jun, 2024

强化学习的广义控制论方法:理论与算法

TL;DR我们提出了一个控制论强化学习方法,用于直接学习最优策略,并在这个方法的一个特定实例基础上建立了理论性质,并导出了一个算法。我们的实证结果证明了我们方法的显著优势。