BriefGPT.xyz
Ask
alpha
关键词
ppo algorithm
搜索结果 - 4
简单政策优化
本文介绍了 SPO(简化策略优化)算法,该算法通过引入一种新的 KL 散度夹紧方法,能够在几乎所有环境中有效地强制执行信任区域约束,同时仍然保持一阶算法的简单性。在 Atari 2600 环境中进行的比较实验表明,SPO 有时比 PPO 算
→
PDF
5 months ago
ICML
多智能体强化学习中局部优化实现全局最优
该研究提出了一种基于多智能体强化学习的 PPO 算法,其中每个代理的本地策略类似于 vanilla PPO,并且通过引入悲观主义来评估策略。该算法是合作 Markov 游戏中首个可证明收敛的多智能体 PPO 算法。
PDF
a year ago
一种强化学习方法用于通过排序交换提高泛化性能的调度问题
本文介绍了一种使用 DRL 求解 JSSP 问题的新方法,该方法使用了 PPO 算法并在环境中加入了 OSM 以实现更好的泛化学习,并在可用的基准实例集上进行了深入的性能分析和比较。
PDF
a year ago
AAAI
自主飞行器基于深度强化学习的长期规划
本文研究了基于现实生活中无人机赛事的长期规划场景,对使用 PPO 算法训练的强化学习智能体在无人机比赛中与使用传统路径规划算法的模拟无人机进行了实验,使用对手无人机的 GPS 信息作为专家指导进行训练,成功解决了复杂状态空间问题,其代码可以
→
PDF
4 years ago
Prev
Next