Jun, 2024
结合超参数自动优化和奖励形状
Combining Automated Optimisation of Hyperparameters and Reward Shape
TL;DR深度强化学习在过去几年取得了显著进展,但是即使对于专家来说,找到适当的超参数配置和奖励函数仍然具有挑战性并且性能严重依赖于这些设计选择,因此我们提出了一种方法来同时优化超参数和奖励函数,实验证明综合优化可以显著改善性能,在一些环境中比基准性能好,并在其他环境中取得了竞争性表现,只有少量计算成本的增加。