Jul, 2019

从负采样演示中学习自我校正策略与价值函数

TL;DR本研究提出了适应于分层控制任务的一种新型学习算法 Value Iteration with Negative Sampling (VINS),具有自我校正的策略,可解决 Teacher 数据样本偏移及学习效率低下等问题,进而可以用于初始值的强化学习中。