规划惊喜:动态环境下的最优贝叶斯探索
本文提出了一种基于安全的强化学习探索方法,通过限制注意力在一组安全的最小子集中,实现安全探索策略的优化,该方法在以前提出的大多数探索方法中可兼容,并在火星地形探索问题中得到了验证。
May, 2012
论文提出了一种高效的 Model-Based Active eXploration (MAX) 算法用于强化学习中的有效探索,该算法使用前向模型的集合来规划观察新事件的行为,优化代理行为,通过基于贝叶斯的探索估计集合成员之间的未来预测差异衡量新颖性,实验证明在半随机离散环境中 MAX 比强基线算法至少高效一个数量级,能够扩展到高维连续环境。
Oct, 2018
本文针对未知 Markov 决策过程提出一种机器学习算法,采用序贯贝叶斯实验设计框架,通过基于轨迹优化的近似方法处理最优探寻问题,以在无先验知识的情况下探索未知环境,实现最优输入合成的系统识别。相比于其他以内在动机为基础的算法,该算法在收敛速度和最终模型保真度上都表现出明显的优势,同时与最近的基于模型的主动探索算法相比,该方案更专注于沿轨迹获取的信息量,具有明显的计算优势。
Oct, 2019
本文提出一种计算信息论预期奖励的方法,运用信息量(mutual information)进行降维,开发出一个Sequential Monte Carlo (SMC)估计器,以避免未来信仰表面的重建,并将此方法应用于信息规划优化问题,最后在活动 SLAM问题的模拟中评估该方法。
Sep, 2022
通过规划最大化任务最优轨迹的期望信息增益的行动序列,使得该方法在较低的样本量下能够学习较强的策略,比探索基线算法少用2倍样本,比模型自由方法少用200倍样本。
Oct, 2022
本文探讨了如何对未知的动态系统进行探索以解决多个下游任务的优化问题,提出了一种使用概率模型来量化关于未知动态的认识不确定性的算法OPAX,结果表明OPAX不仅在理论上具有可行性,在新的下游任务的零-shot规划上也表现良好。
Jun, 2023
在探索嘈杂环境中,乐观导向探索为基础,对高噪声区域的过度探测进行了缓解,提出了一种噪声感知的乐观探索方法-OVD-Explorer,通过梯度上升推动探索,在连续控制强化学习任务中取得了优越的结果。
Dec, 2023
通过提出一种新的探索策略,克服现有方法的局限性,即使奖励不总是可观察到,也能保证收敛到最佳策略。我们还提出了一系列用于在强化学习中进行探索的表格环境(有或没有不可观察的奖励),并展示我们的方法优于现有方法。
Jun, 2024