离线随机最短路径：学习、评估与优化

Jun, 2022

离线随机最短路径：学习、评估与优化

Offline Stochastic Shortest Path: Learning, Evaluation and Towards Optimality

Ming Yin, Wenjing Chen, Mengdi Wang, Yu-Xiang Wang

TL;DR本文研究了离线情况下有限状态和动作空间下的目标导向强化学习，提出基于简单值迭代的算法来解决离线策略评估和学习任务，并分析了这些算法的强实例相关界限。

Abstract

goal-oriented reinforcement learning, where the agent needs to reach the goal state while simultaneously minimizing the cost, has received significant attention in real-world applications. Its theoretical formulation, stochastic shortest path (SSP), has been intensively researched in t

goal-oriented reinforcement learning stochastic shortest path offline policy evaluation offline policy learning value iteration-based algorithms

发现论文，激发创造

通过后验采样的随机最短路径模型在线学习

该研究提出了一种基于后验采样的在线强化学习算法，即 PSRL-SSP，用于解决短路径问题，该算法只需要先验分布的知识，并且具有贝叶斯后悔界，是首个这样的后验采样算法，并在数值上优于之前提出的基于乐观主义的算法。

Jun, 2021

随机最短路径的近最优遗憾边界

本文介绍了一种解决随机最短路径问题的算法，其中代理必须通过在有限次数的游戏中获得最佳策略，从而在最短期望代价下达到目标状态。通过探究悔恨最小化和最小瞬时代价的根号反比关系，本文提出了一种不依赖于最小代价的算法，并展示了任何学习算法在最坏情况下都要有至少 Omega（Bstar 根号乘以 S、A、K 的数量）的悔恨。

Feb, 2020

达成目标很困难：解决随机最短路径样本复杂度问题

本文研究计算马尔科夫决策过程中随机最短路径问题中，学习合理策略的采样复杂度，得到在有选项模型的情况下，学习合理策略的采样下界，并提出一种能够匹配界限的算法。同时，探讨在没有选项模型的情况下学习最佳策略识别问题中的高效学习可能性，并证明在一些假设下是实现可能的。

Oct, 2022

随机最短路径：极小 - 极大，无参数和无限时间后悔

本文旨在解决随机最短路径问题中的学习问题，并设计了一种名为 EB-SSP 的基于模型的算法。该算法通过探索奖励来诱导一个乐观的 SSP 问题，其值迭代方案已被证明会收敛，并获得与下限之间的效果。同时，该算法在不使用任何先前知识的情况下获得最小化后悔率，并在如正成本或一般成本等各种情况下均有所改善。

Apr, 2021

带有对手可变成本的随机最短路径

本文提出了对抗性 SSP 模型，包含时间上对成本的不良变化和未知转移，其开发了第一个对抗性 SSP 算法，并证明了高概率的回报上限。

Jun, 2020

随机最短路径的最小化后悔策略

本文研究了随机最短路问题，提出了一种基于有限阶段马尔科夫决策过程的新算法，其中最小化代理与模型之间的遗憾的上界可达到 $ \widetilde O (\sqrt { (B_\star^2 + B_\star) |S| |A| K})$。根据实验，该算法大幅改善了 Rosenberg 等人的遗憾上界，并且对于期望成本小于 1 的情况，提出了一种完全匹配的下界。

Mar, 2021

随机最短路径问题的高效约束生成

利用规划和运筹学的新框架，解决了随机最短路径问题中冗余计算的问题，提出了一种有效的约束生成技术，应用到了新算法 CG-iLAO*，实验证明 CG-iLAO * 相较于 LRTDP 和 iLAO * 在解决问题时速度提高了 8 倍和 3 倍，并忽略了 iLAO * 的多达 57% 的动作。

Jan, 2024

目标导向的强化学习中的无悔探索

本研究中，我们针对没有固定假设的广义 SSP 问题，提出了第一个无悔算法 UC-SSP，并且证明了它在任意未知 SSP 上的后悔上界，该后悔上界与状态数 S、动作数 A、代价和 SSP 直径 D 有关，同时引入了一套新的停止规则，用以中断当前策略并切换到新的策略以提高效率。

Dec, 2019

随机最短路径的隐式有限时间近似和有效最优算法

该研究利用隐式有限时间近似技术，提出一种通用的模板，用于开发 Stochastic Shortest Path 模型中的情感极小化算法，并且开发了两个新算法，一个是无模型算法，一个是基于模型的算法。这两个算法具有高度稀疏更新，比所有现有算法的计算效率更高，并且都可以实现完全无参数。

Jun, 2021

自主探索与多目标随机最短路径的近最优算法

该研究重新审视了 Lim＆Auer（2012）提出的增量自主探索问题，提出了一种新算法，并证明了该算法在控制状态数多项式增长时是几乎极小化的。

May, 2022