Jun, 2023

低秩 POMDP 中可证明高效且具可行性的表示学习

TL;DR本文研究部分可观测马尔可夫决策过程的表示学习,其中智能体学习将高维原始观察映射到紧凑表示并用于更高效的探索和规划,并提出一种基于最大似然估计和不确定性乐观算法的表示学习算法,从而在计算复杂度上获得高效的采样复杂度。