基于模型无关表示学习方法的块马尔科夫决策过程高效强化学习

Jan, 2022

基于模型无关表示学习方法的块马尔科夫决策过程高效强化学习

Efficient Reinforcement Learning in Block MDPs: A Model-free Representation Learning Approach

Xuezhou Zhang, Yuda Song, Masatoshi Uehara, Mengdi Wang, Alekh Agarwal...

TL;DRBRIEE 是一种在具有块结构动态的马尔可夫决策过程中有效实施强化学习的算法，它将潜在状态的发现、探索和利用相互交织在一起，可以保证以多项式方式扩展样本复杂度来学习近乎最优的策略，而且不依赖于可能无限观察空间的大小。实验证明，相对于现有的 RL HOMER 算法和其他 RL 算法，BRIEE 更具样本效率。

Abstract

We present BRIEE (Block-structured Representation learning with Interleaved Explore Exploit), an algorithm for efficient reinforcement learning in Markov Decision Processes with block-structured dynamics (i.e., B

reinforcement learning markov decision processes block-structured dynamics latent states discovery sample complexity

发现论文，激发创造

低秩马尔可夫决策过程中可证明的高效表示学习

本文提出了一种名为 ReLEX 的算法，旨在通过学习表示和执行探索操作，提高代表低秩 MDPs 类的效率，该算法在方法上始终不劣于最先进的无表示学习算法，并且在表示能够对整个状态 - 动作空间具有一定的 “覆盖性” 时会严格提高样本效率。

Jun, 2021

用多步反向动力学方法通过外界干扰证明的强化学习

该论文研究了如何在处理高维观测数据时，通过引入先前的表示学习方法从原始观测数据中提取内生潜在状态信息，并在存在外生噪声时进行最优规划。提出了 EX-BMDP 模型，开展了潜在状态发现研究，并介绍了基于预测路径消除算法（PPE）的算法，对于近似确定性的内生状态动态具有很好的采样和计算效率。实验表明该方法具有良好的效果。

Oct, 2021

具有形式学习时间保证的增量式基于模型的学习器

研究了使用实时动态规划加速基于模型的学习算法，提高了在求解有限状态和动作空间的马尔可夫决策问题时的计算效率，并在 PAC 意义下证明了这两种算法的高效性。

Jun, 2012

学习潜在动态健壮表示的世界模型

利用视觉模型仿真提升强化学习效果，通过空时屏蔽策略和混合循环状态空间模型来准确捕捉环境的重要特征，以提高策略的学习与表现。

May, 2024

基于价值偏差的最大似然估计在折扣线性 MDPs 中的模型驱动强化学习

我们提出使用基于反向传递最大似然估计的价值偏置方法来解决具有无限时间视角的线性马尔可夫决策过程，该方法在理论上证明具有几乎最优的遗憾，并且在计算上更高效，我们还发现线性马尔可夫决策过程和在线学习之间存在有趣的联系。

Oct, 2023

低秩 MDP 中无模型表示学习与探索

本文提出首个针对低秩 MDP 的无模型表示学习算法，该算法采用了新的极小极大表示学习目标，并将其与探索策略相互交织，以无奖惩的方式覆盖状态空间，从而具有可证明的样本效率和适应复杂环境的能力。

Feb, 2021

DRIBO: 多视角信息瓶颈下的鲁棒深度强化学习

本研究利用多视角设置引入对比的多视图信息瓶颈目标训练深度强化学习代理程序，从而可以学习到能够保留任务相关信息但压缩掉任务不相关信息的强大的表示，进而训练出具有鲁棒性和泛化性的高性能政策。

Feb, 2021

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

特征强化学习：第一部分：非结构化 MDPs

本文研究如何自动化减少任务的状态表达，以将通用的智能学习机设定为 MDP 框架，从而扩大许多现有强化学习算法和使用它们的机器人的范围，并开发一种形式化的客观标准作为搜索可行 MDPs 的指导，并在算法中将各个部分整合到一起。

Jun, 2009

基于低秩框架的推荐系统中的表示学习

提出了一种在推荐系统中使用强化学习优化推荐结果的样本高效表示学习算法，并构建了推荐模拟环境来解决这个问题。

Sep, 2023