BriefGPT.xyz
Dec, 2022
线性马尔科夫决策过程的近最小值最大化强化学习
Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision Processes
HTML
PDF
Jiafan He, Heyang Zhao, Dongruo Zhou, Quanquan Gu
TL;DR
本文介绍了一种基于加权线性回归方案的计算有效算法,用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾,具有较好的效率,对参数化转换动态有良好的适应性,可以对研究领域进行更细致的探讨。
Abstract
We study
reinforcement learning
(RL) with
linear function approximation
. For episodic time-inhomogeneous linear
markov decision processes
→