May, 2023

连续强化学习的策略优化

TL;DR研究了强化学习在连续时间和空间的设置下的应用,提出了购买力占据时间的概念,并进一步将其应用于策略梯度和 TRPO/PPO 方法中。通过数值实验,验证了此方法的有效性和优势。