一种用于动作-状态熵正则化奖励最大化的通用马尔可夫决策过程形式化方法

Feb, 2023

A general Markov decision process formalism for action-state entropy-regularized reward maximization

Dmytro Grytskyy, Jorge Ramírez-Ruiz, Rubén Moreno-Bote

TL;DR提供将约束优化问题转换为无约束凸优化问题的一般性双重函数形式主义，适用于动作和状态熵的任意混合，其中，动作熵和状态熵的纯形式被理解为混合的极限。这解决了前人关于动作、状态和混合熵正则化、纯探索和空间占用等问题的解决方案很麻烦的难题。

Abstract

Previous work has separately addressed different forms of action, state and action-state entropy regularization, pure exploration and space occup