Jun, 2022
可证明高效的部分可观测动态系统强化学习
Provably Efficient Reinforcement Learning in Partially Observable Dynamical Systems
Masatoshi Uehara, Ayush Sekhari, Jason D. Lee, Nathan Kallus, Wen Sun
TL;DR通过提出一种新的基于双线性 Actor-Critic 框架的学习算法,该算法可以对部分可观察的动态系统进行部分可观察的强化学习,并且在特定的情形下(如欠完备的可观察性模型)具有较高的性能表现。