Apr, 2024

分类控制系统中的强化学习

TL;DR我们展示了强化学习的几个重要算法都适用于范畴控制论的框架,即参数化的双向过程。通过扩展贝尔曼算子到应用于行动 - 值函数并依赖于样本的参数化光学,应用可表示的逆变函子获得一个应用贝尔曼迭代的参数化函数,该函数成为代表模型的另一参数化光学的反向传递,通过代理与环境进行交互。因此,我们的构建中参数化光学以两种不同方式出现,其中一个成为另一个的一部分。我们认为许多强化学习的主要算法类可以看作是这一一般设置的不同极端情况:动态规划、蒙特卡洛方法、时差学习和深度强化学习。我们认为这是这种方法的有力证据,相信它将是未来思考强化学习的一个富有成效的方式。