BriefGPT.xyz
Ask
alpha
关键词
action value normalization
搜索结果 - 1
AAAI
单智能体优化:通过蒙特卡罗树搜索进行策略迭代
本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法,通过 1)用于潜在无限奖励问题的新颖行动价值规范机制,2)定义虚拟损失函数实现有效搜索并行化,以及 3)由自我对弈逐代训练的策略网
→
PDF
4 years ago
Prev
Next