BriefGPT.xyz
Ask
alpha
关键词
continuous time and space
搜索结果 - 1
连续强化学习的策略优化
研究了强化学习在连续时间和空间的设置下的应用,提出了购买力占据时间的概念,并进一步将其应用于策略梯度和 TRPO/PPO 方法中。通过数值实验,验证了此方法的有效性和优势。
PDF
a year ago
Prev
Next