本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习。
Oct, 2021
离线优化是一个新兴的问题,在许多实验工程领域,包括蛋白质、药物或飞机设计,由于在线实验以收集评估数据费时或危险,必须在仅有一组固定输入的离线评估基础上优化一个未知函数。为了避免这种情况,可以学习一个未知函数的代理模型并对其进行优化,但这种简单的优化器容易对离线数据集之外的输入过于高估代理模型(可能会因为在有偏函数评估样本上过度拟合)。为填补这一重要空白,我们将离线优化重新定义为一个离线强化学习问题,引入了一种新的学习搜索视角。我们的建议是通过明确学习从离线数据创建的代理模型中获得最佳策略来进行梯度搜索。我们对多个基准测试的实证结果表明,所学习的优化策略能够与现有的离线代理模型相结合,显著提高优化性能。
May, 2024
本文旨在寻找以神经网络为基础的反馈控制器,以高效地解决最优控制问题。研究表明,在线直接政策优化和离线监督学习这两种方法中,离线监督学习的优化和训练时间更具优势,并提出了一种称为 'Supervised Pre-train and Fine-tune' 的训练方法,可显著提高性能和鲁棒性。
Nov, 2022
使用对抗学习建立具有更好泛化性能的转移模型,能够更准确地量化模型不确定性,并在广泛研究的离线强化学习基准测试中胜过现有最先进的对照方法。
Sep, 2023
本文提出了一种实用的线下强化学习工作流程,类似于监督学习问题的工作流程,并演示了在几个模拟机器人学习场景和两个不同真实机器人上的三个任务中,使用此工作流程在没有在线调整的情况下生成有效策略的有效性。
Sep, 2021
利用高斯过程学习补偿多智能体系统中未知的组成部分,并通过基于概率保证的预测误差边界确保了所提出的基于学习的控制器的控制性能。
Feb, 2024
本文研究带有敌对干扰的线性动态系统的控制,在几乎不知道扰动信息的情况下,实现近乎最优的在线控制过程,主要贡献是提出一种算法来提供几乎紧密的遗憾界,这一研究在技术层面上对以前的工作进行了推广和扩展。
Feb, 2019
该论文研究在线控制问题,通过使用单一无噪声轨迹计算干扰累积并通过在线梯度下降更新参数,提出了一种数据驱动的策略来减小控制器的后悔。
Aug, 2023
本文提出了基于概率模型预测控制(MPC)的基于模型的 RL 框架,以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响,同时使用 MPC 找到最小化预期长期成本的控制序列,以达到在受限环境下使用 RL 的目的。
Jun, 2017
本文介绍了一种模型基于策略搜索的自动学习方法,使用概率非参数高斯过渡模型从数据中提取更多信息,以提高学习速度并降低模型误差的影响,已在真实机器人和控制任务中得到了应用。
Feb, 2015