AAAIFeb, 2021

当行动被修改时,强化学习代理的行为表现

TL;DR通过 Modified-Action Markov Decision Process 模型,分析了强化学习算法在受到监督控制时的适应方法,展示了一些算法能够避免执行操作的更改,开发人员可以通过选择正确的算法来更好地管理其代理响应。