Nov, 2018

强化学习中的应变感知探索

TL;DR本文研究了学习环境的可控方面和连续性感知是否能够导致强化学习中更好的探索并开展了相关实验,结果表明使用我们的态势代表结合演员-评论家算法和计数探索实现了卓越的效果。