Sep, 2017

当等待不是选项:学习决策代价的选项

TL;DR本文利用有限理性框架和沉思代价的概念,提出了一种学习如何构造好的options的方法,同时推导出实现这一目标的基于梯度的算法,并在Arcade Learning Environment中取得了性能和可解释性方面的增强。