Feb, 2022

使用倒置强化学习学习相对回报策略

TL;DR研究了倒立强化学习在使用命令指定标量和观察回报之间期望关系方面的潜力以及在 Table 赌博机和具有非线性函数逼近的 CartPole 上实现此类命令的在线学习能力,并展示了此类方法的强大性以及它们在更复杂的命令结构下的实际应用的开放性。