学做还是边做边学：强化学习与贝叶斯优化的在线连续调节

Jun, 2023

学做还是边做边学：强化学习与贝叶斯优化的在线连续调节

Learning to Do or Learning While Doing: Reinforcement Learning and Bayesian Optimisation for Online Continuous Tuning

Jan Kaiser, Chenran Xu, Annika Eichler, Andrea Santamaria Garcia, Oliver Stein...

TL;DR使用反馈强化学习优化（RLO）和贝叶斯优化（BO）进行比较研究，在实际粒子加速器任务中，发现 RLO 通常表现更优，但并非在所有情况下都是最佳选择。基于研究结果，提供了一组明确的标准，以指导选择给定调谐任务的算法。

Abstract

online tuning of real-world plants is a complex optimisation problem that continues to require manual intervention by experienced human operators. →

online tuning optimisation problem autonomous tuning reinforcement learning bayesian optimisation

发现论文，激发创造

迭代学习的贝叶斯优化

本文提出了一种基于贝叶斯优化的方法，该方法可以利用学习算法的迭代结构来有效地调整超参数。在深度强化学习和卷积神经网络训练中，我们的算法通过选择最佳超参数的方式，以最小时间成本实现了调优。

Sep, 2019

行为监督调节的离线强化学习

TD3-BST 是一种应用于脱机强化学习算法的不确定性模型，通过指导策略在数据集支持中选择动作，从而比先前的方法更有效地从离线数据集中学习策略，并在具有挑战性的基准测试中取得最佳性能，无需进行特定数据集的调整。

Apr, 2024

虚拟与现实：贝叶斯优化在强化学习中平衡模拟与实验

本文提出了一种基于贝叶斯优化算法的方法，通过利用来自仿真的先验知识，自动将仿真数据和实验数据相结合以更有效地找到良好的控制策略，从而减少实验次数和成本。

Mar, 2017

可持续的在线强化学习用于自动竞价

本文中，我们提出了一种可持续的在线强化学习（SORL）框架，该框架通过与实际广告系统（RAS）直接交互来训练自动出价策略，从而避免了问题在离线虚拟广告系统（VAS）中进行 RL 训练过程。这一方法包括安全高效的在线探索（SER）策略、方差抑制保守 Q 学习（V-CQL）方法等，能够有效地学习自动出价策略并提高自动出价算法的表现。

Oct, 2022

机器学习算法的实用贝叶斯优化

本研究基于贝叶斯优化框架，建立高斯过程模型，通过前期实验获得的信息来优化机器学习算法的超参数调整，作者提出可以超过经验人类调参表现的自动算法，并介绍收集实验信息、利用多核心并行实验等新算法。

Jun, 2012

自适应贝叶斯优化在高精度运动系统中的应用

在这项工作中，我们提出了一种基于 GoOSE 算法的实时纯数据驱动的自适应控制方法，用于在线调整低级控制器参数，从而处理性能和稳定性的要求，并通过修改负载和参考步长将其与插值约束优化方法进行比较，用于评估算法在半导体行业应用中实现的真实精密运动系统的性能。

Apr, 2024

线下到线上强化学习的贝叶斯设计原则

离线强化学习（RL）在探索可能成本高昂或不安全的真实世界应用中至关重要。然而，离线学习的策略通常是次优的，需要进一步进行在线微调。本文解决了离线到在线微调的基本困境：如果智能体保持悲观态度，可能无法学到更好的策略，而如果直接变得乐观，性能可能会突然下降。我们证明贝叶斯设计原则在解决这种困境中至关重要。智能体不应采取乐观或悲观的策略，而是应根据其对最优策略的信念采取行动。这样的概率匹配智能体可以避免性能突然下降，同时保证找到最优策略。基于我们的理论发现，我们提出了一种优于现有方法的新算法，在各种基准测试中展示了我们方法的有效性。总体而言，所提出的方法为离线到在线 RL 提供了一种新的视角，有潜力使离线数据的学习更加有效。

May, 2024

Hyp-RL : 通过强化学习进行超参数优化

本论文将超参数优化问题建模为一系列决策问题，并用强化学习方法来解决，通过优化选择下一个待优化的超参数，从而提高模型性能。在 50 个数据集上的实验表明，该方法优于目前超参数学习领域的其他方法。

Jun, 2019

用户交互离线强化学习

本论文提出了一种算法，使用户可以同时解决由于性能不佳或行为不熟悉而导致的问题，通过调整运行时的设定，可以逐步调整最重要的超参数 —— 将学习的策略与原始策略之间的接近程度，并在策略降级或行为过于偏离熟悉行为时随时停止。

May, 2022

基于贝叶斯优化的目标驱动动态学习

通过基于贝叶斯优化的主动学习框架以及最优控制方案，采用特定任务方法，使用局部线性动态模型来设计给定任务的控制器，并通过对物理系统的实验来迭代地更新模型，最终在四旋翼实验台上进行仿真和实验，验证了该方法的有效性。

Mar, 2017