离线优化是一个新兴的问题,在许多实验工程领域,包括蛋白质、药物或飞机设计,由于在线实验以收集评估数据费时或危险,必须在仅有一组固定输入的离线评估基础上优化一个未知函数。为了避免这种情况,可以学习一个未知函数的代理模型并对其进行优化,但这种简单的优化器容易对离线数据集之外的输入过于高估代理模型(可能会因为在有偏函数评估样本上过度拟合)。为填补这一重要空白,我们将离线优化重新定义为一个离线强化学习问题,引入了一种新的学习搜索视角。我们的建议是通过明确学习从离线数据创建的代理模型中获得最佳策略来进行梯度搜索。我们对多个基准测试的实证结果表明,所学习的优化策略能够与现有的离线代理模型相结合,显著提高优化性能。
May, 2024
本文提出了一种基于贝叶斯优化算法的方法,通过利用来自仿真的先验知识,自动将仿真数据和实验数据相结合以更有效地找到良好的控制策略,从而减少实验次数和成本。
Mar, 2017
本研究基于贝叶斯优化框架,建立高斯过程模型,通过前期实验获得的信息来优化机器学习算法的超参数调整,作者提出可以超过经验人类调参表现的自动算法,并介绍收集实验信息、利用多核心并行实验等新算法。
Jun, 2012
离线强化学习(RL)在探索可能成本高昂或不安全的真实世界应用中至关重要。然而,离线学习的策略通常是次优的,需要进一步进行在线微调。本文解决了离线到在线微调的基本困境:如果智能体保持悲观态度,可能无法学到更好的策略,而如果直接变得乐观,性能可能会突然下降。我们证明贝叶斯设计原则在解决这种困境中至关重要。智能体不应采取乐观或悲观的策略,而是应根据其对最优策略的信念采取行动。这样的概率匹配智能体可以避免性能突然下降,同时保证找到最优策略。基于我们的理论发现,我们提出了一种优于现有方法的新算法,在各种基准测试中展示了我们方法的有效性。总体而言,所提出的方法为离线到在线 RL 提供了一种新的视角,有潜力使离线数据的学习更加有效。
将健壮的高斯过程均匀误差边界扩展到多任务设置,通过后验超参数分布的马尔科夫链蒙特卡罗方法计算置信区间,应用贝叶斯优化来安全优化系统并结合模型的测量数据,仿真表明与其他最先进的安全贝叶斯优化方法相比,优化过程可以显著加速,取决于模型的准确性。
Dec, 2023
本文主要研究基于观测数据的离线多行动策略学习问题,特别地,该策略可能需要遵守预算约束或属于受限策略类,如决策树,提出了一个算法实现,能够达到渐近最小化风险后悔,这是在多行动设置中的首次结果,对于现有的学习算法有大幅度的性能提升。该文提出了两种不同的方法来解决当策略被限制为采用决策树形式时出现的附加计算挑战,一种方法使用混合整数方案,另一种方法使用基于树搜索的算法。
Oct, 2018
许多强化学习应用中,很难让智能体在真实世界中行动,这给自动驾驶、医疗应用甚至某些推荐系统带来了困扰。本研究概述了强化学习中将离线数据与不完善模拟器相结合的四个主要挑战,并构建了 “机械离线强化学习基准”(B4MRL)来推动该领域的研究。结果表明,这些基准对未来研究至关重要。
Jun, 2024
利用模拟来加速离线强化学习与行动评估的实证研究:探讨离线强化学习与行动评估的实证研究如何受益于模拟,并提供了在 RecSys 和 RTB 中进一步促进实证研究的开放挑战和解决方案。
Sep, 2021
利用离线数据集设计无反馈的探索策略,改进强化学习的政策。研究通过理论分析和度量方法,以原始数据集的局部覆盖和附加数据收集的量来衡量最终政策的质量。
Jul, 2023
在这项工作中,我们提出了一种基于 GoOSE 算法的实时纯数据驱动的自适应控制方法,用于在线调整低级控制器参数,从而处理性能和稳定性的要求,并通过修改负载和参考步长将其与插值约束优化方法进行比较,用于评估算法在半导体行业应用中实现的真实精密运动系统的性能。
Apr, 2024