Sep, 2017

用因果稀疏 Tsallis 熵正则化的稀疏马尔可夫决策过程用于强化学习

TL;DR本文提出了一种带有因果稀疏 Tsallis 熵正则化的稀疏 Markov 决策过程,引入的策略正则化引导了 Markov 决策过程中的稀疏和多模态最优策略分布,并与利用因果熵正则化的软 Markov 决策过程进行了比较,在强化学习问题中应用稀疏 MDP 方法,优于现有方法在收敛速度和性能方面。