Jun, 2023

学做还是边做边学:强化学习与贝叶斯优化的在线连续调节

TL;DR使用反馈强化学习优化(RLO)和贝叶斯优化(BO)进行比较研究,在实际粒子加速器任务中,发现 RLO 通常表现更优,但并非在所有情况下都是最佳选择。基于研究结果,提供了一组明确的标准,以指导选择给定调谐任务的算法。