规划惊喜：动态环境下的最优贝叶斯探索

Mar, 2011

规划惊喜：动态环境下的最优贝叶斯探索

Planning to Be Surprised: Optimal Bayesian Exploration in Dynamic Environments

Yi Sun, Faustino Gomez, Juergen Schmidhuber

TL;DR为了最大化其成功，一个 AGI 通常需要探索其最初未知的世界。我们在这里为广泛类别的环境得出了一种最优的探索方法。

Abstract

To maximize its success, an agi typically needs to explore its initially unknown world. Is there an optimal way of doing so? Here we derive an affirmative answer for a broad class of →

发现论文，激发创造

马尔可夫决策过程中的安全探索

本文提出了一种基于安全的强化学习探索方法，通过限制注意力在一组安全的最小子集中，实现安全探索策略的优化，该方法在以前提出的大多数探索方法中可兼容，并在火星地形探索问题中得到了验证。

May, 2012

基于模型的贝叶斯探索

本文论述的是如何在强化学习的算法中基于概率分布估算每个行动的信息价值，并选择能够平衡探索与利用的最佳行动。

Jan, 2013

基于模型的主动探索

论文提出了一种高效的 Model-Based Active eXploration (MAX) 算法用于强化学习中的有效探索，该算法使用前向模型的集合来规划观察新事件的行为，优化代理行为，通过基于贝叶斯的探索估计集合成员之间的未来预测差异衡量新颖性，实验证明在半随机离散环境中 MAX 比强基线算法至少高效一个数量级，能够扩展到高维连续环境。

Oct, 2018

远视视野好奇心

本文针对未知 Markov 决策过程提出一种机器学习算法，采用序贯贝叶斯实验设计框架，通过基于轨迹优化的近似方法处理最优探寻问题，以在无先验知识的情况下探索未知环境，实现最优输入合成的系统识别。相比于其他以内在动机为基础的算法，该算法在收敛速度和最终模型保真度上都表现出明显的优势，同时与最近的基于模型的主动探索算法相比，该方案更专注于沿轨迹获取的信息量，具有明显的计算优势。

Oct, 2019

有趣的对象，好奇的智能体：学习与任务无关的探索

本研究提出了一种新的任务无关探索方法，将学习到的策略转移到不同的环境下，通过评估基线策略和探索组件，提高在多个测试环境下的一致性探索。

Nov, 2021

高维非参数信念的信息化规划

本文提出一种计算信息论预期奖励的方法，运用信息量(mutual information)进行降维，开发出一个Sequential Monte Carlo (SMC)估计器，以避免未来信仰表面的重建，并将此方法应用于信息规划优化问题，最后在活动 SLAM问题的模拟中评估该方法。

Sep, 2022

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用2倍样本，比模型自由方法少用200倍样本。

Oct, 2022

动态系统的乐观主动探索

本文探讨了如何对未知的动态系统进行探索以解决多个下游任务的优化问题，提出了一种使用概率模型来量化关于未知动态的认识不确定性的算法OPAX，结果表明OPAX不仅在理论上具有可行性，在新的下游任务的零-shot规划上也表现良好。

Jun, 2023

OVD-Explorer：噪声环境中的探索不应仅仅是乐观的追求

在探索嘈杂环境中，乐观导向探索为基础，对高噪声区域的过度探测进行了缓解，提出了一种噪声感知的乐观探索方法－OVD-Explorer，通过梯度上升推动探索，在连续控制强化学习任务中取得了优越的结果。

Dec, 2023

超越乐观：具有部分可观察奖励的探索

通过提出一种新的探索策略，克服现有方法的局限性，即使奖励不总是可观察到，也能保证收敛到最佳策略。我们还提出了一系列用于在强化学习中进行探索的表格环境（有或没有不可观察的奖励），并展示我们的方法优于现有方法。

Jun, 2024