BriefGPT.xyz
大模型
Ask
alpha
关键词
continuous control environments
搜索结果 - 3
连续性情节控制
本文提出了一种新型非参数迭代记忆算法 CEC 来解决具有连续动作空间的顺序决策问题,同时在多个稀疏奖励连续控制环境中表现出比最先进的无模型 RL 和记忆扩展 RL 算法更快的学习速度和更好的长期表现。
PDF
2 years ago
MM
多样性策略梯度用于高效样本质量多样化优化
本文提出了一种新算法 QDPG,它结合了策略梯度算法和质量多样性方法,用于在连续控制环境中生成多样化和高性能的神经控制器,并且比其他进化算法更具样本效率。
PDF
4 years ago
共享自主权的残差策略学习
提出了一种模型自由、剩余策略学习算法来实现共享自主,将人与机器人的互补优势结合起来,以实现共同的目标,在 Lunar Lander 和 6-DOF quadrotor reaching task 两个连续控制环境中测试,表明此方法可以显著提
→
PDF
4 years ago
Prev
Next