通过潜在状态解码的丰富观测下可证明的高效强化学习

ICMLJan, 2019

通过潜在状态解码的丰富观测下可证明的高效强化学习

Provably efficient RL with Rich Observations via Latent State Decoding

Simon S. Du, Akshay Krishnamurthy, Nan Jiang, Alekh Agarwal, Miroslav Dudík...

TL;DR该论文研究了在具有大量从少量潜在状态生成的丰富观察结果的情节 MDPs 中的探索问题。在某些可辨识性假设下，研究人员通过一系列回归和聚类步骤归纳地估计了从观察到潜在状态的映射，并使用它构建了良好的探索策略。

Abstract

We study the exploration problem in episodic mdps with rich observations generated from a small number of latent states. Under certain ide

exploration problem episodic mdps latent states regression exploration policies

发现论文，激发创造

具有潜在动态信息的可证明样本效率强化学习

本文研究了在观测结果高维的情况下，强化学习智能体如何使用对状态空间结构的抽象知识来学习目标领域中的任务。提出了一种名为 TASID 的算法，该算法学习目标任务的健壮策略，其采样复杂度是地平线次数的多项式，并且可以利用先前的知识独立于状态数。

May, 2022

潜在 MDP 中的强化学习是可行的：通过离线策略评估实现在线保证

我们介绍了没有任何附加结构假设的 Latent Markov Decision Processes (LMDPs) 的第一个样本高效算法，并建立了新的离线评估引理和 LMDPs 的新覆盖系数，通过这些结果可以推导出一种乐观探索算法的近似最优保证。我们相信这些结果对于广泛的交互式学习问题，特别是部分观测环境中，具有重要价值。

Jun, 2024

使用谱方法进行丰富观测 MDP 的强化学习

本文研究富观测马尔科夫决策过程（ROMDP），提出了一种谱分解方法用于在有限时间内成功地学习到每个观测状态的隐状态，由此引入了基于寻优算法的强化学习算法 UCRL，且在维度依赖性方面具有较弱的相关性的有限时间遗憾边界。

Nov, 2016

离线强化学习中的潜在扩散推理

该论文介绍了一种离线强化学习的方法，使用压缩的潜在技能建模支援轨迹序列，避免外推错误，并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息，改进了信用分配，并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能，特别擅长长期，稀疏奖励任务。

Sep, 2023

利用隐空间动态模型的信息最大化探索

本文提出一种基于模型行动选择的强化学习方法，该方法在价值函数的潜在特征空间中学习动态模型，实现机器人和环境的动态表示和模型自我激励，从而解决传统方法当中的探索与利用权衡问题，并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能，重点是改善探索。

Apr, 2018

从非线性观测学习线性二次调节器

本研究引入了一种新的连续控制问题设置，称为 RichLQR，使用低维连续潜在状态和高维非线性观测来实现样本高效的学习，并建立了一种新算法 RichID，该算法无需了解编码器的具体信息，仅使用最小二乘回归预测即可实现近似最优控制。

Oct, 2020

PcLast: 发现可规划的连续潜在状态

我们学习到一种能够关联可达状态的表示方法，通过学习多步逆动力学获得一个潜在表示，并将其转换为在 l2 空间中关联可达状态，这种方法可以显著提高采样效率，并实现层次化规划。

Nov, 2023

基于丰富观测的 PAC 强化学习

本研究提出一种新的强化学习模型，将上下文逐步演化到顺序决策制定，通过分析最小二乘值淘汰算法表明，在某些特定情形，强化学习方法的范数较优行为可以在多项式时间内学习。

Feb, 2016

强化学习中的概率推理正确实施

强化学习中，通过马尔科夫决策过程的图形模型，以概率推理的方式对各状态 - 行为对的访问概率进行研究。本研究采用贝叶斯方法，严格处理了状态 - 行为优化的后验概率，并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法，得到了一个可行的凸优化问题，建立的策略也能有效地进行探索。该方法称为 VAPOR，与汤普森抽样、K 学习和最大熵探索有着紧密的联系。通过一些实验，展示了深度强化学习版本 VAPOR 在性能上的优势。

Nov, 2023

低秩马尔可夫决策过程中的高效无模型探索

VoX 算法是首个可证明的高效的基于样本的搜索低阶马尔可夫决策过程算法，具备泛化功能近似且无需其他结构假设。该算法通过交替表示学习和策略优化，利用通用最优设计概念实现有效的最优设计计算。我们的分析简单而模块化，包括基于 Frank-Wolfe 方法的新型最优设计计算到策略优化的约简，以及对先前工作中某种特征嵌入的优化过的模块化分析。

Jul, 2023