BriefGPT.xyz
Jun, 2022
可证明高效的部分可观测动态系统强化学习
Provably Efficient Reinforcement Learning in Partially Observable Dynamical Systems
HTML
PDF
Masatoshi Uehara, Ayush Sekhari, Jason D. Lee, Nathan Kallus, Wen Sun
TL;DR
通过提出一种新的基于双线性Actor-Critic框架的学习算法,该算法可以对部分可观察的动态系统进行部分可观察的强化学习,并且在特定的情形下(如欠完备的可观察性模型)具有较高的性能表现。
Abstract
We study
reinforcement learning
for
partially observable dynamical systems
using function approximation. We propose a new \textit{Partially Observable Bilinear
→