Jul, 2024

通过策略优化缩小对抗性和随机MDP之间的差距

TL;DR通过使用APO-MVP算法和基于动态规划和黑盒在线线性优化策略的策略优化,本文在对手强 Markov 决策过程中提出了一个新的追悔边界概念,并且通过估计优势函数以避免典型的占有度量工具,实现了对状态和动作空间大小的优化,使得算法易于实现。