Oct, 2020

几乎极小化最优无奖学习

TL;DR研究奖励免费强化学习框架,提出新的有效算法 SS+TP,通过探索和计划两个阶段,分别进行轨迹收集和任意奖励函数优化,达到对多个奖励函数的策略优化。