Aug, 2022

使用离线排序提高进化强化学习的样本效率

TL;DR本文提出了一种用于评估候选解的离线排序方法,以提高样本效率,在强化学习中使用增强型随机搜索算法(ARS)时,与原始 ARS 相比,我们的离线策略具有类似的运行时间,但只需要约 70% 的数据,并且胜过最近的 TR-ES。