BriefGPT.xyz
Ask
alpha
关键词
ranked reward algorithm
搜索结果 - 1
排序奖励:为组合优化实现自我对弈强化学习
本文介绍了一个名为 Ranked Reward(R2)的算法,它能够将敌对自我博弈用于单人游戏,并将其应用于维度为 2 和 3 的装箱问题,证明该算法胜过基本的蒙特卡罗搜索、启发式算法、整数规划求解器,并对排名奖励机制进行了分析。
PDF
6 years ago
Prev
Next