Mar, 2022

非静态强化学习的因素自适应

TL;DR提出了一种基于因果图和分解的自适应方法(Factored Adaptation for Non-Stationary RL, FANS-RL),可用于Reinforcement Learning(RL)中的非静态环境和目标建模,能够学习到因果结构和各个时间变化因素的分解表示,该方法相对于现有的方法在return、潜在状态的紧凑性和非静态性的鲁棒性方面有更好的表现。