Jun, 2019

状态边际匹配优化探索效率

TL;DR通过 State Marginal Matching (SMM) 框架,将 Reinforcement Learning 中的 Exploration 问题转化为学习策略,以匹配给定目标状态分布。使用 SMM 框架构建的算法,能够更快速地进行探索,较以前的探索方法更快地适应新任务。