May, 2023

减少实际政策优化循环时间调整的成本

TL;DR探讨了在一个给定的任务中选择 action-cycle 时间时,学习算法的超参数是否需要重新调整,并进行了相应的实验和对比研究,提出了一种基于 cycle time 设置超参数的新方法,以避免针对每个 cycle time 进行昂贵和广泛的超参数调整。