改进的 MDPs 增量自主探索的样本复杂度

Dec, 2020

改进的 MDPs 增量自主探索的样本复杂度

Improved Sample Complexity for Incremental Autonomous Exploration in MDPs

Jean Tarbouriech, Matteo Pirotta, Michal Valko, Alessandro Lazaric

TL;DRDisCo 算法采用新颖的基于模型的方法，通过同时发现新的状态和提高计算目标策略的模型估计的准确性来达到对未知环境进行探索的目的，并在任何有成本限制的最短路径问题中返回一个接近于最优解的策略。

Abstract

We investigate the exploration of an unknown environment when no reward function is provided. Building on the incremental exploration setting introduced by Lim and Auer [1], we define the objective of learning th

exploration goal-conditioned policies model-based approach sample complexity shortest-path problem

发现论文，激发创造

自主探索与多目标随机最短路径的近最优算法

该研究重新审视了 Lim＆Auer（2012）提出的增量自主探索问题，提出了一种新算法，并证明了该算法在控制状态数多项式增长时是几乎极小化的。

May, 2022

无模型强化学习：从剪切伪懊恼到样本复杂度

本文提出了一种无模型的算法来学习具有折扣因子的马尔可夫决策过程中的政策，该算法的成功概率为 (1-p)，且具有样本复杂度 O (SALn (1/p)/(ε^2 (1-γ)^3))，其中 S 是状态数，A 是行动数，γ 是折扣因子，ε 是一个近似阈值

Jun, 2020

一种可证明有效的强化学习样本采集策略

本文提出了一种解决在线强化学习中勘探 - 利用问题的解耦方法，其中包括一种目标特定的算法和一种负责尽快生成预定样本的目标不可知的样本收集方法，并且利用这种方法在不同领域获得了增强的样本复杂度保证。

Jul, 2020

基于规约的平均回报 MDP 的近似最优策略学习

本研究考虑采用生成模型（模拟器）以获取平均奖励 MDP 中的 eps 策略最优性的样本复杂度。

Dec, 2022

用生成模型解决折扣马尔可夫决策过程的最优时间和样本复杂度

通过生成采样模型计算马尔可夫决策过程问题的最优策略及其样本复杂度分析。

Jun, 2018

有界最优探索在 MDP 中的应用

本文提出简单算法来解决在短期内实现理论驱动的探索方法和实际需求之间的纠葛，并通过理论分析和数字示例展示所提出的放宽条件的好处，同时维持任何时候的误差边界和平均损失边界，并且适用于贝叶斯和非贝叶斯方法。

Apr, 2016

在约束马尔可夫决策过程中实现 $\tilde {O}(1/ε)$ 的样本复杂性

我们研究了强化学习问题中的约束马尔可夫决策过程（CMDP），并通过优化算法对 CMDP 问题的样本复杂度提出了改进，实现了优化的问题相关保证。

Feb, 2024

具约束的有限时间 MDP 的高样本效率算法

本文研究了约束马尔可夫决策过程，并提出了一种在线算法，该算法利用了有限时间视角下的线性规划公式来进行乐观规划，以提供概率上正确的 γ 优化策略，该算法逐渐逼近最佳结果，并且保证结果最多只是 γ 深度有损失的结果，并且在指定公差范围内具有概率保证。

Sep, 2020

将路径法和得分函数估值器相结合，用于离散行为空间的确定性策略优化

一种新的基于期望的松弛动态模型逼近的混合策略梯度估计器，结合分数函数和路径推导估计器，对离散动作空间具有应用性和可扩展性，可在 Cart Pole、Acrobot、Mountain Car 和 Hand Mass 任务上学习参数化策略时显著降低样本复杂度，范围介于 1.7 倍到 25 倍之间。

Nov, 2017

学习未知马尔可夫决策过程：一种汤普森抽样方法

本文提出了一种基于贝叶斯的 Thompson Sampling 加持的动态时段算法 (TSDE)，尝试在无限的时间尺度内解决了一个学习未知 MDP 的问题，实现了很好的性能并达到了理论界限。

Sep, 2017