低秩 MDP 中无模型表示学习与探索

Feb, 2021

低秩 MDP 中无模型表示学习与探索

Model-free Representation Learning and Exploration in Low-rank MDPs

Aditya Modi, Jinglin Chen, Akshay Krishnamurthy, Nan Jiang, Alekh Agarwal

TL;DR本文提出首个针对低秩 MDP 的无模型表示学习算法，该算法采用了新的极小极大表示学习目标，并将其与探索策略相互交织，以无奖惩的方式覆盖状态空间，从而具有可证明的样本效率和适应复杂环境的能力。

Abstract

The low rank mdp has emerged as an important model for studying representation learning and exploration in reinforcement learning. With a

low rank mdp representation learning exploration model-free function approximation

发现论文，激发创造

低秩马尔可夫决策过程中的高效无模型探索

VoX 算法是首个可证明的高效的基于样本的搜索低阶马尔可夫决策过程算法，具备泛化功能近似且无需其他结构假设。该算法通过交替表示学习和策略优化，利用通用最优设计概念实现有效的最优设计计算。我们的分析简单而模块化，包括基于 Frank-Wolfe 方法的新型最优设计计算到策略优化的约简，以及对先前工作中某种特征嵌入的优化过的模块化分析。

Jul, 2023

低秩 MDP 中在线和离线 RL 的表示学习

本文研究了如何在低秩马尔可夫决策过程中进行紧凑的低维表示的表示学习，并致力于改进样本复杂度，并提出 REP-UCB 算法。

Oct, 2021

低秩马尔可夫决策过程中可证明的高效表示学习

本文提出了一种名为 ReLEX 的算法，旨在通过学习表示和执行探索操作，提高代表低秩 MDPs 类的效率，该算法在方法上始终不劣于最先进的无表示学习算法，并且在表示能够对整个状态 - 动作空间具有一定的 “覆盖性” 时会严格提高样本效率。

Jun, 2021

通过对比表示学习使线性 MDPs 具有实用性

本研究提出了利用对比估计自动保证规范化的线性马尔可夫决策过程（MDPs）的可行性，实现了优秀的理论保证和实证性能，并引入了信心调整指数算法，实现了在面对不确定性时的高效和本质的乐观（或悲观）策略。

Jul, 2022

低秩 MDPs 下无奖励强化学习的样本复杂度改进

本文研究了低秩 MDP 模型下无奖励强化学习及其算法。首先推导出该问题的最低样本复杂度下限，并提出了 RAFFLE 算法，通过无奖励探索可以在样本复杂度显著改善下找到 epsilon - 最优策略和 epsilon - 准确的系统识别。最后，提出了 RAFFLE 的规划算法，可学习到近乎准确的表示，是该环境下首个具有表示学习保证的算法。

Mar, 2023

FLAMBE: 低秩 MDPs 的结构复杂度和表示学习

研究了强化学习中维数诅咒的问题，提出了一种学习表示的方法，并将其与特定的非线性矩阵分解问题联系起来，并通过算法 FLAMBE 实现了有效的低秩转移模型下的探索和表示学习。

Jun, 2020

特征强化学习：第一部分：非结构化 MDPs

本文研究如何自动化减少任务的状态表达，以将通用的智能学习机设定为 MDP 框架，从而扩大许多现有强化学习算法和使用它们的机器人的范围，并开发一种形式化的客观标准作为搜索可行 MDPs 的指导，并在算法中将各个部分整合到一起。

Jun, 2009

具有连续动作空间的低秩马尔可夫决策进程

在这项研究中，我们研究了将低秩马尔可夫决策过程（MDPs）的方法扩展到具有连续动作的情况，并探索了多种具体方法。我们以 FLAMBE 算法作为案例研究，表明在动作允许连续的情况下，得到了类似的 PAC 界限。

Nov, 2023

学习具有未知转移和全信息反馈的对抗性低秩马尔可夫决策过程

通过代表学习、探索和利用等相互交织的方法，本论文以非线性函数逼近和对抗性损失为基础，提出一种 POLO 算法，以实现对低秩马尔可夫决策过程 (Low-rank MDPs) 的次线性遗憾保证。

Nov, 2023

低秩 MDP 中的密度特征强化学习

这篇论文研究了具有低秩转移矩阵的 MDPs，尤其是密度特征的样本高效学习，提出了一种算法来处理非勘探性数据的离线场景和逐层构建勘探数据分布的在线算法。

Feb, 2023