Sep, 2022

乐观极大似然估计 —— 用于部分可观测序列决策的通用基于模型的算法

TL;DR此研究介绍了一个简单高效的学习算法 OMLE,它结合了探索优化和极大似然估计,可在多项式数量的样本中学习当今已知的大多数可处理的强化学习问题,包括 POMDP 和 SAIL 条件下的普通顺序决策问题,并提供了一种奖励免费的近似动态模型学习方法。