May, 2023

一种融合估计和规划的最大化目标用于探索

TL;DR本研究提出了一个易于实现的 RL 框架 Maximize to Explore(MEX),它通过最大化一个综合了估计和规划分量的单一目标,在自动平衡探索和利用方面实现了比现有算法更高的采样效率,并实现了更低的计算成本和更好的与现代深度 RL 方法兼容性。