Jan, 2022

时变系统中强化学习的揭秘

TL;DR探索如何通过一个稳健的框架解决非稳态环境下的强化学习问题,其中该框架通过识别不同的环境、触发探索、将先前环境的知识保留下来以及保护系统性能来训练 RL agent,并且在解决一些系统问题时进行了验证。