Oct, 2021

面向持续学习的块上下文 MDPs

TL;DR本文提出使用块上下文 MDP 框架来研究连续强化学习情境,该框架用于解决非稳态性和丰富的观察设置所带来的挑战,并提出了一种新算法以实现零 - shot 自适应,并在多个非稳态情境中取得了良好的表现。