Nov, 2019

强化学习中具有防腐能力的探索策略

TL;DR我们提出了一个框架,结合 “不确定性中的乐观主义” 和 “动作消除” 这两个策略,以解决领域中的非随机腐败问题,从而有效地实现了多阶段情节强化学习。