AAAIDec, 2023

假设保证强化学习

TL;DR我们提出了一种模块化的强化学习方法,其中环境由并行演化的简单组件组成,通过对邻近组件行为进行假设并提供自身行为保证来独立合成每个组件的最优控制器。我们通过将假设 - 保证合同表达为正则语言并自动将其转换为 RL 中使用的标量奖励,结合每个组件的满足概率,提供了对完整系统满足概率的下界,从而通过解决每个组件的 Markov 博弈产生了最大化该下界的控制器。