Jan, 2019

Tsallis 强化学习:最大熵强化学习的统一框架

TL;DR本文提出了一种新的马尔可夫决策过程类别 Tsallis MDPs,用于强化学习问题和各种类型熵的使用,包括标准 Shannon-Gibbs 熵,并使用一个额外的实数值参数,称为熵指数,控制了勘探倾向和优化政策的不同维度,所提出方法采用 Tsallis 的熵极大化,并以无模型演员 - 评论家策略进行实现,在 MuJoCo 模拟器上进行验证并取得最先进的性能。