基于贝叶斯优化的子目标探索

ICLROct, 2019

Subgoal-based Exploration via Bayesian Optimization

Yijia Wang, Matthias Poloczek, Daniel R. Jiang

TL;DR本文提出了一种基于代价感知的贝叶斯优化方法，旨在通过动态子目标的一系列探索策略来克服稀疏奖励、高昂交互和噪声等挑战，实现在未知分布环境下的政策学习。在实验评估中，平均而言，所提出的算法在问题领域上的表现优于 MAML 元学习算法 19％，超参数调整方法 Hyperband 23％，BO 技术 EI 和 LCB 分别为 24％和 22％。

Abstract

policy optimization in unknown, sparse-reward environments with expensive and limited interactions is challenging, and poses a need for effective exploration. Motivated by complex navigation tasks that require re

policy optimization sparse-reward environments exploration strategies cost-efficient exploration bayesian optimization

发现论文，激发创造

目标导航探索的复杂性

通过构建依赖图和分析随机漫步的击中时间，我们设计出了一类逃脱房间环境，评估了不同种类的奖励方法和分层策略对于智能体探索能力的影响，并表明超过某个复杂度的环境需要采用分层方法。

Nov, 2018

远视视野好奇心

本文针对未知 Markov 决策过程提出一种机器学习算法，采用序贯贝叶斯实验设计框架，通过基于轨迹优化的近似方法处理最优探寻问题，以在无先验知识的情况下探索未知环境，实现最优输入合成的系统识别。相比于其他以内在动机为基础的算法，该算法在收敛速度和最终模型保真度上都表现出明显的优势，同时与最近的基于模型的主动探索算法相比，该方案更专注于沿轨迹获取的信息量，具有明显的计算优势。

Oct, 2019

迭代学习的贝叶斯优化

本文提出了一种基于贝叶斯优化的方法，该方法可以利用学习算法的迭代结构来有效地调整超参数。在深度强化学习和卷积神经网络训练中，我们的算法通过选择最佳超参数的方式，以最小时间成本实现了调优。

Sep, 2019

为高效探索确定目标取向轨迹

本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域，并提出将单个随机操作选择替换为随机目标选择，该方法与任何基于好奇心的探索和脱机强化学习代理兼容，并生成比单个随机操作更长且更安全的轨迹。

Jul, 2018

元强化学习和贝叶斯优化设计生物序列

本文通过 MetaRLBO，提出了一种对于生物序列的加速设计方法，使用 Meta-Reinforcement Learning 训练自回归生成模型，以 Bayesian Optimization 为辅助选择出有前途的序列，获得较强的鲁棒性和相对具有竞争力的结果。

Sep, 2022

费用受限的贝叶斯优化的非近视方法

本文提出了将成本约束的 BO 建模为约束马尔科夫决策过程 (CMDP) 的方法，并开发了一个高效的滚动估计算法，以同时考虑成本和未来迭代次数。作者在超参数优化和传感器集选择中验证了他们的方法。

Jun, 2021

加速物理发现的非交互性和交互性多保真贝叶斯优化：当前挑战和未来机遇

在计算材料发现领域，通过多样的交互工作流程和基于贝叶斯优化的多层次恒定调整，结合数据、物理和实时人工决策，提高了对多维参数空间的探索效率。

Feb, 2024

MALIBO: 元学习用于无似然贝叶斯优化

提出了一种新的元学习贝叶斯优化方法，通过直接学习任务间查询的效用来解决现有方法在规模可扩展性、观测尺度和噪声类型上的限制，明确建模任务不确定性，并使用辅助模型实现对新任务的稳健适应，在各个基准测试中展现了强大的即时性能，并优于现有元学习贝叶斯优化方法。

Jul, 2023

HypBO: 专家引导化学家参与贝叶斯搜索新材料

机器人技术和自动化为解决材料发现等难以处理的多变量科学问题提供了巨大的加速，而巨大的搜索空间可能令人望而生畏。贝叶斯优化（BO）已成为一种流行的高效样本优化引擎，在目标函数 / 属性没有已知的解析形式的任务中蓬勃发展。本文利用专家人类假设的形式来更快地将贝叶斯搜索定向到化学空间的有前途的区域。我们提出的方法称为 HypBO，利用专家人类假设生成改进的样本种子。不太有希望的种子被自动折扣，而有希望的种子被用于增加代理模型数据，从而实现更有信息的抽样。这个过程在一个全局与局部搜索的框架中继续进行。我们在一系列合成函数上验证了我们方法的性能，并在一个真实的化学设计任务上展示了其实用性，其中使用专家假设显著加速了搜索性能。

Aug, 2023

一种基于内在动机的学习方法，用于学习高度探索和快速运动策略

本文提出一种新的代理与环境相互作用下的探索策略，旨在最小化步骤数、最大化稳态分布熵的下界，并引入三个下界分别对应三个最优化问题，再基于此提出 IDE$^{3}$AL 算法进行模型驱动的强化学习。

Jul, 2019