自主探索与多目标随机最短路径的近最优算法

ICMLMay, 2022

自主探索与多目标随机最短路径的近最优算法

Near-Optimal Algorithms for Autonomous Exploration and Multi-Goal Stochastic Shortest Path

Haoyuan Cai, Tengyu Ma, Simon Du

TL;DR该研究重新审视了 Lim＆Auer（2012）提出的增量自主探索问题，提出了一种新算法，并证明了该算法在控制状态数多项式增长时是几乎极小化的。

Abstract

We revisit the incremental autonomous exploration problem proposed by Lim & Auer (2012). In this setting, the agent aims to learn a set of near-optimal goal-conditioned policies to reach the $L$-controllable stat

autonomous exploration goal-conditioned policies sample complexity bounds multi-goal stochastic shortest path minimax-optimal

发现论文，激发创造

改进的 MDPs 增量自主探索的样本复杂度

DisCo 算法采用新颖的基于模型的方法，通过同时发现新的状态和提高计算目标策略的模型估计的准确性来达到对未知环境进行探索的目的，并在任何有成本限制的最短路径问题中返回一个接近于最优解的策略。

Dec, 2020

为高效探索确定目标取向轨迹

本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域，并提出将单个随机操作选择替换为随机目标选择，该方法与任何基于好奇心的探索和脱机强化学习代理兼容，并生成比单个随机操作更长且更安全的轨迹。

Jul, 2018

目标导向的强化学习中的无悔探索

本研究中，我们针对没有固定假设的广义 SSP 问题，提出了第一个无悔算法 UC-SSP，并且证明了它在任意未知 SSP 上的后悔上界，该后悔上界与状态数 S、动作数 A、代价和 SSP 直径 D 有关，同时引入了一套新的停止规则，用以中断当前策略并切换到新的策略以提高效率。

Dec, 2019

离线随机最短路径：学习、评估与优化

本文研究了离线情况下有限状态和动作空间下的目标导向强化学习，提出基于简单值迭代的算法来解决离线策略评估和学习任务，并分析了这些算法的强实例相关界限。

Jun, 2022

一种基于内在动机的学习方法，用于学习高度探索和快速运动策略

本文提出一种新的代理与环境相互作用下的探索策略，旨在最小化步骤数、最大化稳态分布熵的下界，并引入三个下界分别对应三个最优化问题，再基于此提出 IDE$^{3}$AL 算法进行模型驱动的强化学习。

Jul, 2019

随机最短路径：极小 - 极大，无参数和无限时间后悔

本文旨在解决随机最短路径问题中的学习问题，并设计了一种名为 EB-SSP 的基于模型的算法。该算法通过探索奖励来诱导一个乐观的 SSP 问题，其值迭代方案已被证明会收敛，并获得与下限之间的效果。同时，该算法在不使用任何先前知识的情况下获得最小化后悔率，并在如正成本或一般成本等各种情况下均有所改善。

Apr, 2021

达成目标很困难：解决随机最短路径样本复杂度问题

本文研究计算马尔科夫决策过程中随机最短路径问题中，学习合理策略的采样复杂度，得到在有选项模型的情况下，学习合理策略的采样下界，并提出一种能够匹配界限的算法。同时，探讨在没有选项模型的情况下学习最佳策略识别问题中的高效学习可能性，并证明在一些假设下是实现可能的。

Oct, 2022

随机最短路径问题的变体

本文介绍了关于随机最短路径问题的算法和策略，提供多种保证路径长度分布，而不仅是期望值最小的解决方案，并对最近在马尔科夫决策过程的研究成果进行了应用。

Nov, 2014

随机最短路径问题的高效约束生成

利用规划和运筹学的新框架，解决了随机最短路径问题中冗余计算的问题，提出了一种有效的约束生成技术，应用到了新算法 CG-iLAO*，实验证明 CG-iLAO * 相较于 LRTDP 和 iLAO * 在解决问题时速度提高了 8 倍和 3 倍，并忽略了 iLAO * 的多达 57% 的动作。

Jan, 2024

基于贝叶斯优化的子目标探索

本文提出了一种基于代价感知的贝叶斯优化方法，旨在通过动态子目标的一系列探索策略来克服稀疏奖励、高昂交互和噪声等挑战，实现在未知分布环境下的政策学习。在实验评估中，平均而言，所提出的算法在问题领域上的表现优于 MAML 元学习算法 19％，超参数调整方法 Hyperband 23％，BO 技术 EI 和 LCB 分别为 24％和 22％。

Oct, 2019