Oct, 2018

预测校正策略优化

TL;DR本研究提出一种基于预测模型的框架PicCoLO,可将一阶模型无关强化或模仿学习算法转化为一种新的混合方法,用于优化策略,减少模型偏差及实现收敛加速。该框架通过对可预测在线学习转换为对抗学习的新颖减少方法,使得多种一阶模型无关算法的收敛速度得到提高。