具有连续潜在动力的丰富观测强化学习

ICMLMay, 2024

具有连续潜在动力的丰富观测强化学习

Rich-Observation Reinforcement Learning with Continuous Latent Dynamics

Yuda Song, Lili Wu, Dylan J. Foster, Akshay Krishnamurthy

TL;DR針對連續環境中高維感知輸入的強化學習算法的樣本效率和可靠性問題，本研究提出了一種新的理論框架 RichCLD（基於豐富觀測的連續潛在動力學強化學習），其中代理基於高維觀測進行控制，但環境卻由低維潛在狀態和 Lipschitz 連續動力學所控制。我們的主要貢獻是提出了一種新的算法，可以在統計和計算效率方面獲得證明。我們的算法的核心是一個新的表示學習目標；我們表明，適用於離散動力學的先前表示學習方案不自然地擴展到連續環境。我們的新目標易於實施，實驗結果顯示它在標准評估協議中相比先前方案具有競爭優勢。此外，我們對 RichCLD 框架的統計複雜性提供了一些見解，特別是證明了在豐富觀測缺失情況下的樣本效率學習所需的某些 Lipschitz 性質在豐富觀測情況下是不夠的。

Abstract

sample-efficiency and reliability remain major bottlenecks toward wide adoption of reinforcement learning algorithms in continuous setting

reinforcement learning sample-efficiency reliability continuous latent dynamics representation learning

发现论文，激发创造

从非线性观测学习线性二次调节器

本研究引入了一种新的连续控制问题设置，称为 RichLQR，使用低维连续潜在状态和高维非线性观测来实现样本高效的学习，并建立了一种新算法 RichID，该算法无需了解编码器的具体信息，仅使用最小二乘回归预测即可实现近似最优控制。

Oct, 2020

具有潜在动态信息的可证明样本效率强化学习

本文研究了在观测结果高维的情况下，强化学习智能体如何使用对状态空间结构的抽象知识来学习目标领域中的任务。提出了一种名为 TASID 的算法，该算法学习目标任务的健壮策略，其采样复杂度是地平线次数的多项式，并且可以利用先前的知识独立于状态数。

May, 2022

随机潜在演员 - 评论家：具有潜在变量模型的深度强化学习

本文介绍了一种基于深度强化学习的算法，通过学习潜在表示来加速图像的强化学习，提出了随机潜在 Actor-Critic（SLAC）算法，并表明其在图像控制任务上的表现优于其他无模型或基于模型的替代方案。

Jul, 2019

简化的时间一致增强学习

本文展示了一种简单的表示学习方法：只依赖于通过潜在时间一致性训练的潜在动态模型，既可以在计划类的强化学习中使用，也可以在基于模型的强化学习中作为策略和价值函数特征使用。该方法在高维度任务上优于模型无关方法，并在样本效率上达到了模型类方法的水平。

Jun, 2023

连续的状态 - 动作空间中的近连续时间强化学习

通过使用泊松时钟模型与连续时间，本研究旨在克服强化学习中离散时间与离散状态的局限性，并且提出了一个算法来应对连续时间下的学习和规划任务，其在近连续时间中实现了阶悔恨度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 的性能。

Sep, 2023

使用深度动态模型从图像像素中高效学习反馈策略

本文提出了一种数据有效、基于模型的强化学习算法，通过使用像素信息直接学习闭环控制策略，实现了从像素到扭矩的端到端学习。该方法具有快速学习、高维状态空间可扩展、轻量级等优点，并且是解决在连续状态和动作下进行数据有效强化学习问题的重要步骤。

Oct, 2015

通过潜在状态解码的丰富观测下可证明的高效强化学习

该论文研究了在具有大量从少量潜在状态生成的丰富观察结果的情节 MDPs 中的探索问题。在某些可辨识性假设下，研究人员通过一系列回归和聚类步骤归纳地估计了从观察到潜在状态的映射，并使用它构建了良好的探索策略。

Jan, 2019

3D 非静态环境下的持续强化学习

本文提出了一种基于 ViZDoom 的复杂三维非稳态任务的 CRLMaze Continual 学习策略，可以在非稳态的环境下进行端到端无模型学习，并与其他基线方法相比表现出竞争力。

May, 2019

iQRL - 隐式量化表示用于高效强化学习

使用自监督的潜在状态一致性损失提出了一种有效的表示学习方法，通过量化潜在表示以保留表示的秩，命名为 iQRL：隐式量化强化学习，可与任何无模型强化学习算法兼容，并在 DeepMind 控制套件的连续控制基准中表现优异，超过其他最近提出的表示学习方法。

Jun, 2024

高维度策略学习的泛化动态的强化感知器

提出了一种可以捕捉多种学习协议的 RL 可解高维模型，并将其典型动态推导为一组封闭形式 ODE，我们推导出了学习率和任务难度的最优计划，同时还展现了丰富的行为，包括稀疏奖励下的延迟学习；因奖励基线的不同而产生的各种学习模式；以及由奖励严格性驱动的速度 - 准确性权衡。与 “Bossfight” 的 Procgen 游戏和 Arcade Learning Environment 游戏 “Pong” 的变体的实验还表明，在实践中存在速度 - 准确性权衡问题。

Jun, 2023