IJCAIApr, 2016

深度强化学习的分类选项

TL;DR本文将一个分层强化学习方法 —— 选项框架与深度 Q 网络结合起来,通过在策略网络上使用不同的 “选项头” 以及用于选择不同选项的监督网络,探究子任务在正 / 负转移方面对架构约束的影响,并通过实证方法证明,增强型深度 Q 网络同时学习具有负转移的子任务的样本复杂性较低,而在学习具有正转移的子任务时不会降低性能。