Dec, 2023

以表示复杂性为视角重新思考基于模型、基于策略和基于价值的强化学习

TL;DR强化学习(RL)涵盖了不同的范式,包括基于模型的 RL、基于策略的 RL 和基于值的 RL,本文研究了这些 RL 范式之间表示复杂性的潜在层次结构,从表示模型、最优策略到最优值函数等不同层次之间存在着显著的表示复杂性差距。