稀疏奖励任务的最短路径约束强化学习

ICMLJul, 2021

稀疏奖励任务的最短路径约束强化学习

Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks

Sungryull Sohn, Sungtae Lee, Jongwook Choi, Harm van Seijen, Mehdi Fatemi...

TL;DR提出了 k-SP 约束条件，这是一种新颖的约束条件，可以提高稀疏奖励 MDP 中的样本效率。在数值实验中，通过减少策略的轨迹空间，实现了抑制冗余探索和利用，提高了样本效率，并展示了优于传统算法的成果。

Abstract

We propose the k-Shortest-Path (k-SP) constraint: a novel constraint on the agent's trajectory that improves the sample efficiency in sparse-reward mdps. We show that any optimal policy necessarily satisfies the

k-shortest-path constraint sample efficiency mdps redundant exploration rl algorithms

发现论文，激发创造

稀疏奖励下连续控制任务中的本地持久探索

本文提出了一种新的基于探索者轨迹的探索策略，使用局部自避步态生成方法，结合合适的状态平均距离，来为稀疏奖励的连续状态和行动空间提供短时记忆，实现高效的环境探索。

Dec, 2020

随机最短路径问题的高效约束生成

利用规划和运筹学的新框架，解决了随机最短路径问题中冗余计算的问题，提出了一种有效的约束生成技术，应用到了新算法 CG-iLAO*，实验证明 CG-iLAO * 相较于 LRTDP 和 iLAO * 在解决问题时速度提高了 8 倍和 3 倍，并忽略了 iLAO * 的多达 57% 的动作。

Jan, 2024

基于轨迹的稀疏奖励策略优化

利用离线演示轨迹的强化学习方法，通过最大均值差异（MMD）计算轨迹距离并将策略优化视为一种受距离限制的优化问题，从离线演示学习到的形状奖励函数实现了与离线演示相匹配的状态 - 动作访问边缘分布，从而在稀疏奖励环境下提供了更快且更高效的在线强化学习方法。

Jan, 2024

随机最短路径的近最优遗憾边界

本文介绍了一种解决随机最短路径问题的算法，其中代理必须通过在有限次数的游戏中获得最佳策略，从而在最短期望代价下达到目标状态。通过探究悔恨最小化和最小瞬时代价的根号反比关系，本文提出了一种不依赖于最小代价的算法，并展示了任何学习算法在最坏情况下都要有至少 Omega（Bstar 根号乘以 S、A、K 的数量）的悔恨。

Feb, 2020

通过后验采样的随机最短路径模型在线学习

该研究提出了一种基于后验采样的在线强化学习算法，即 PSRL-SSP，用于解决短路径问题，该算法只需要先验分布的知识，并且具有贝叶斯后悔界，是首个这样的后验采样算法，并在数值上优于之前提出的基于乐观主义的算法。

Jun, 2021

目标导向的强化学习中的无悔探索

本研究中，我们针对没有固定假设的广义 SSP 问题，提出了第一个无悔算法 UC-SSP，并且证明了它在任意未知 SSP 上的后悔上界，该后悔上界与状态数 S、动作数 A、代价和 SSP 直径 D 有关，同时引入了一套新的停止规则，用以中断当前策略并切换到新的策略以提高效率。

Dec, 2019

离线随机最短路径：学习、评估与优化

本文研究了离线情况下有限状态和动作空间下的目标导向强化学习，提出基于简单值迭代的算法来解决离线策略评估和学习任务，并分析了这些算法的强实例相关界限。

Jun, 2022

奖励受限策略优化

提出了一种名为 “奖励约束策略优化（RCPO）” 的多时间尺度方法，该方法使用替代惩罚信号引导策略满足约束，并证明了该方法的收敛性和训练满足约束的策略的能力。

May, 2018

随机最短路径：极小 - 极大，无参数和无限时间后悔

本文旨在解决随机最短路径问题中的学习问题，并设计了一种名为 EB-SSP 的基于模型的算法。该算法通过探索奖励来诱导一个乐观的 SSP 问题，其值迭代方案已被证明会收敛，并获得与下限之间的效果。同时，该算法在不使用任何先前知识的情况下获得最小化后悔率，并在如正成本或一般成本等各种情况下均有所改善。

Apr, 2021

安全关键强化学习的概率约束

本文探讨了在概率受限制的强化学习中学习安全策略的问题，并提出了两种算法 ——Safe Policy Gradient-REINFORCE 和 SPG-Actor-Critic 以及 Safe Primal-Dual 算法来解决。通过实验，验证了这些方法的有效性和优越性。

Jun, 2023