May, 2024

Oracle 高效最大值集成强化学习

TL;DR通过可伸缩方法进行策略改进的学习算法,仅使用成分策略而非其价值函数来与最优策略竞争,并展示其实验有效性和行为特性。