Apr, 2024

极值寻求动作选择以加速策略优化

TL;DR通过引入基于极值搜索控制的自适应控制步骤,改进了模型自由强化学习中的动作选择,在标准策略优化中提高了学习效率。