Oct, 2020

非平稳RL中的无模型方法:接近最优遗憾及在多智能体RL和库存控制中的应用

TL;DR提出了RestartQ-UCB算法,它是第一个非定常强化学习的模型自由算法,并且通过实验证明在多代理强化学习和相关产品库存控制方面具有较好的性能。