BriefGPT.xyz
May, 2024
大规模离散动作空间的随机 Q 学习
Stochastic Q-learning for Large Discrete Action Spaces
HTML
PDF
Fares Fourati, Vaneet Aggarwal, Mohamed-Slim Alouini
TL;DR
在复杂环境中,使用深度神经网络作为函数近似器的大离散行为空间的强化学习问题中,传统的基于值的强化学习方法存在计算负担,本文提出了一种用于优化前 $n$ 个动作集合的变量随机子集的基于值的强化学习方法,并通过理论证明和实证验证表明,在不同控制问题上,这些方法在减少时间的同时仍能实现接近最优的平均回报。
Abstract
In complex environments with
large discrete action spaces
, effective decision-making is critical in
reinforcement learning
(RL). Despite the widespread use of
→