Sep, 2024
针对具有线性可实现价值函数的MDP的样本和oracle高效强化学习
Sample- and Oracle-Efficient Reinforcement Learning for MDPs with
Linearly-Realizable Value Functions
TL;DR本研究解决了在大规模或无限状态和动作空间中设计高效样本和计算合理的强化学习算法的难题。我们提出了一种新算法,能够在给定特征映射下高效寻找近似最优策略,并在问题参数上呈多项式级别使用样本和成本敏感分类oracle。这一算法显著提升了现有方法的效能,尤其在处理无限状态和动作环境时,具有重要应用潜力。