BriefGPT.xyz
Ask
alpha
关键词
multi-armed bandit machine
搜索结果 - 1
策略迭代的概率采样法近似实现
本文提出了一种改进的策略迭代算法,使用分类器代替值函数,并将策略学习作为监督学习问题进行处理,解决了通过模拟评估策略时的核心抽样问题,实验验证表明其能在反摆杆和车山等领域内实现可比较的性能提升,并显著减少计算工作量。
PDF
16 years ago
Prev
Next