AAAISep, 2016

Option-Critic 架构

TL;DR本文介绍了一种基于 options 框架下的 policy gradient theorems,提出了一种新的 option-critic 架构,能够同时学习 options 的内部策略和终止条件,展现了该框架在离散和连续环境中的灵活性和效率。