Sep, 2023

连续的状态 - 动作空间中的近连续时间强化学习

TL;DR通过使用泊松时钟模型与连续时间,本研究旨在克服强化学习中离散时间与离散状态的局限性,并且提出了一个算法来应对连续时间下的学习和规划任务,其在近连续时间中实现了阶悔恨度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 的性能。