Mar, 2020

马尔可夫决策过程中的主动模型估计

TL;DR本文研究了基于 Markov 决策过程 (MDP) 环境中的精确建模的高效探索问题,提出一种以加权熵为基础的算法用于解决贪心算法在探索初阶段表现较差的问题,并在简单的具有异构噪音的两个问题上进行了验证。