May, 2024

大规模离散动作空间的随机 Q 学习

TL;DR在复杂环境中,使用深度神经网络作为函数近似器的大离散行为空间的强化学习问题中,传统的基于值的强化学习方法存在计算负担,本文提出了一种用于优化前 $n$ 个动作集合的变量随机子集的基于值的强化学习方法,并通过理论证明和实证验证表明,在不同控制问题上,这些方法在减少时间的同时仍能实现接近最优的平均回报。