BriefGPT.xyz
Ask
alpha
关键词
quantile optimization
搜索结果 - 2
使用双时间尺度策略梯度算法的基于分位数的深度强化学习
在强化学习中考虑累积奖励分位数优化的问题,使用神经网络参数化策略,提出了 Quantile-Based Policy Optimization(QPO)和 Quantile-Based Proximal Policy Optimizatio
→
PDF
a year ago
基于分位数的强化学习策略优化
本文提出了一种名为 Quantile-Based Policy Optimization(QPO)的 RL 算法,与原有算法相比在 quantile 目标的情况下表现更好,算法使用神经网络对策略进行参数化,同时使用两个相互耦合的迭代来估计量
→
PDF
2 years ago
Prev
Next