Jun, 2023

通过动作空间分组实现样本和计算高效的强化学习

TL;DR本文提出了一种解决高维情况下强化学习中的状态和行动指数级增长问题的方法:通过学习具有动作上相似的马尔可夫决策过程的内在结构,以适当平衡性能退化与样本 / 计算复杂度之间的关系,并提出了一种基于线性分解模型的分组策略以最小化总体性能损失。