Jul, 2020

EMaQ:基于期望最大化Q学习算子的简便高效离线与在线强化学习

TL;DR研究了一种基于 Expected-Max Q-Learning 的离线强化学习算法 EMaQ,通过引入新的备份操作符,获得了 EMaQ 的简化版本,该算法通过约束策略保持在行为策略的支持范围内,优于传统算法,其重要贡献包括提出离线 RL 问题中的复杂度概念、丰富的子优性边界以及对生成模型设计的重要性的实证发现。