BriefGPT.xyz
Ask
alpha
关键词
continuous control benchmark tasks
搜索结果 - 1
ICML
基于轨迹的离线深度强化学习
本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上
→
PDF
5 years ago
Prev
Next