Dec, 2022

线性马尔科夫决策过程的近最小值最大化强化学习

TL;DR本文介绍了一种基于加权线性回归方案的计算有效算法,用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾,具有较好的效率,对参数化转换动态有良好的适应性,可以对研究领域进行更细致的探讨。