IJCAIJun, 2019

课程学习促进累积回报最大化

TL;DR本论文提出一种任务排序算法,旨在通过控制学习过程中的探索行为减少非最优行为,并通过实验表明在组合优化问题中能够实现显著的累积回报最大化性能,以及在微型能源网络的家庭控制器优化问题中实现验证。