Jun, 2016

从 t-SNE 到 SEMI-MDPs 的动态可视化

TL;DR本文介绍了一种新的方法,可以自动地发现 Deep Q 网络的内部Semi Markov Decision Process(SMDP)模型,并通过一个有向图以及t-SNE可视化方法呈现SMDP模型,展示了代理策略的解释及 Deep Q 网络自动学习的分层状态聚合的证据。