Jul, 2024

马尔可夫决策过程中的几何主动探索: 抽象的好处

TL;DR这篇研究论文介绍了利用强化学习(Reinforcement Learning)算法设计动力系统状态空间上的实验的方法,通过将优化问题转化为凸强化学习(Convex RL),并利用几何结构进行抽象,提出了具有统计和计算效率优势的几何主动探索(Geometric Active Exploration)算法。