BriefGPT.xyz
Ask
alpha
关键词
multiple strategies
搜索结果 - 1
DGPO: 通过多样性指导的策略优化发现多种策略
本文提出了一种基于多样性导向的动态规划策略优化算法(DGPO),该算法使用多样性对象来指导一个隐式编码策略,从而在单一的训练过程中学习出多组不同的策略,并将受外部激励约束的优化问题作为概率推理任务来解决,并使用策略迭代来最大化所得的下界。实
→
PDF
2 years ago
Prev
Next