Jun, 2021

在线样本子采样与一般函数逼近在强化学习中的应用

TL;DR本研究设计了一种基于在线子采样技术的强化学习算法,可带有半参考函数近似和低切换成本,并使用上置信区间的探索驱动型奖励函数在无奖励情况下探索环境,其中计算时间为 O (poly (dH)),且保证在一定轮数的探索后能输出满足给定奖励函数的 epsilon 优越策略。