multi-armed bandit machine | BriefGPT

关键词multi-armed bandit machine

搜索结果 - 1

策略迭代的概率采样法近似实现
本文提出了一种改进的策略迭代算法，使用分类器代替值函数，并将策略学习作为监督学习问题进行处理，解决了通过模拟评估策略时的核心抽样问题，实验验证表明其能在反摆杆和车山等领域内实现可比较的性能提升，并显著减少计算工作量。
PDF16 years ago