Jun, 2023

强化学习中的超参数及其调整方法

TL;DR本论文旨在提高深度强化学习的可重复性,通过比较多个 HPO 工具,展示了 HPO 方法通常具有更高的性能和更低的计算开销,并提出采用从 AutoML 中建立的最佳实践,以及在广泛的搜索空间内进行原则性的 HPO。最终,论文推荐了一套适用于 RL 社区的最佳实践,以实现更强的实证结果、更少的计算成本、更好的可重复性和更快的进展。