虚拟与现实：贝叶斯优化在强化学习中平衡模拟与实验

Mar, 2017

虚拟与现实：贝叶斯优化在强化学习中平衡模拟与实验

Virtual vs. Real: Trading Off Simulations and Physical Experiments in Reinforcement Learning with Bayesian Optimization

Alonso Marco, Felix Berkenkamp, Philipp Hennig, Angela P. Schoellig, Andreas Krause...

TL;DR本文提出了一种基于贝叶斯优化算法的方法，通过利用来自仿真的先验知识，自动将仿真数据和实验数据相结合以更有效地找到良好的控制策略，从而减少实验次数和成本。

Abstract

In practice, the parameters of control policies are often tuned manually. This is time-consuming and frustrating. reinforcement learning is a promising alternative that aims to automate this process, yet often re

reinforcement learning bayesian optimization simulations control policies robotic platforms

发现论文，激发创造

基于在线离线实验的策略搜索贝叶斯优化

使用离线模拟器并应用多任务贝叶斯优化改进在线机器学习系统的方法，较之仅进行在线实验，能够更有效地探索复杂、多维度的策略空间，并通过学习曲线表明离线实验可以显著提高在线实验结果的准确性和优化速度。

Apr, 2019

实验平台遇上强化学习：用贝叶斯序贯决策方法进行连续监控

本文介绍了亚马逊公司开发的基于贝叶斯最优连续监控框架，通过强化学习算法发展一种统一的效用函数来控制企业机会成本的最优策略，并使用大规模的元分析验证与已有方法相比的有效性。

Apr, 2023

学做还是边做边学：强化学习与贝叶斯优化的在线连续调节

使用反馈强化学习优化（RLO）和贝叶斯优化（BO）进行比较研究，在实际粒子加速器任务中，发现 RLO 通常表现更优，但并非在所有情况下都是最佳选择。基于研究结果，提供了一组明确的标准，以指导选择给定调谐任务的算法。

Jun, 2023

主动学习强化学习：一种随机最优控制方法

本文提供了一个应对强化学习的框架，解决了建模不确定性和计算成本高的问题，通过使用强化学习来解决随机动态规划方程，所得的强化学习控制器对多种类型的约束条件是安全的，并且可以主动学习建模不确定性，实现实时学习。通过模拟实例证明了提出方法的有效性。

Sep, 2023

使用贝叶斯优化验证控制器抵抗对抗性样本

本文提出了一种基于贝叶斯优化和逻辑约束的主动测试框架，用于测试具有复杂安全规范的机器人行为。实验结果表明，该方法能够快速发现对抗性的案例。

Feb, 2018

深度强化学习联合学习构造和控制智能体

运用深度强化学习，开发能够同时优化机器人设计和控制策略的方法，在机器人行走的场景下展示出在性能和效率方面均优于基准算法的优越性。

Jan, 2018

基于贝叶斯优化的高效领域随机化

本文提出了一种 Bayesian Domain Randomization（BayRn）算法，通过采样真实世界目标域中的稀疏数据来适应性地调整源域分布参数，解决在机器人控制中遇到的模拟培训与真实世界之间存在的不匹配问题，实现了在模拟和真实环境下的任务优化。

Mar, 2020

具有噪声实验的约束贝叶斯优化

本文提出一种基于贝叶斯优化的方法用于有噪声的随机实验，通过利用贪心批量优化和拟蒙特卡罗逼近，有效地优化了多个连续参数，并在 Facebook 进行的真实实验中验证了其性能。

Jun, 2017

在真实世界机器人上对强化学习算法进行基准测试

通过在多个商业机器人上实施我们引入的多个强化学习任务，通过对其四种增强学习算法的学习性能进行测试并分析其对超参数的灵敏度，揭示出这些算法的实际应用性。我们发现现代学习算法对超参数非常敏感，为了获得最佳性能需要为每个任务重新调整参数。

Sep, 2018

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022