利用视角一致动力学加速数据效率强化学习中的表征学习

Jan, 2022

利用视角一致动力学加速数据效率强化学习中的表征学习

Accelerating Representation Learning with View-Consistent Dynamics in Data-Efficient Reinforcement Learning

Tao Huang, Jiachen Wang, Xiao Chen

TL;DR通过提出多视角马尔可夫决策过程和视图一致的动力学模型，在深度强化学习中学习图像观测的信息表示，以达到数据高效的目的。该模型在 DeepMind Control Suite 和 Atari-100k 数据集上的实验验证表明，其是视觉控制任务最先进的数据高效算法。

Abstract

Learning informative representations from image-based observations is of fundamental concern in deep reinforcement learning (RL). However, data-inefficiency remains a significant barrier to this objective. To overcome this obstacle, we propose to accelerate →

deep reinforcement learning state representation learning multi-view markov decision process view-consistent dynamics data efficiency

发现论文，激发创造

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

动态感知嵌入

本文提出一种自监督表示学习方法，通过正向预测目标同时学习环境状态和动作序列的嵌入表示，以提高强化学习的采样效率和策略学习性能。研究表明，使用本文提出的动作嵌入表示已经能够在低维状态下有效提高模型无关的强化学习的采样效率和峰值性能。同时，结合状态嵌入和动作嵌入表示可以在只进行 100-200 万次环境步骤的情况下，快速、高效地学习高质量的基于目标条件的连续控制策略。

Aug, 2019

简化的时间一致增强学习

本文展示了一种简单的表示学习方法：只依赖于通过潜在时间一致性训练的潜在动态模型，既可以在计划类的强化学习中使用，也可以在基于模型的强化学习中作为策略和价值函数特征使用。该方法在高维度任务上优于模型无关方法，并在样本效率上达到了模型类方法的水平。

Jun, 2023

从视频中实现强化学习的原则性表示学习

研究使用视频数据进行决策预训练表示学习，讨论两种情景：观察中的独立同分布噪声和存在外部噪声的困难情景，验证了在不同情境中学习表征方法的样本复杂度和性能表现。

Mar, 2024

通过强化学习中的内在动力特征学习任务相关的序列表示

通过建模状态转换的动力学方程、优化编码器以满足状态转换过程并区分状态空间和噪声空间，以及从序列元素频率域和多步预测的角度顺序地建模内在动力学方程关系，我们提出了一种内在动力学特征驱动的序列表示学习方法（DSR），并在视觉任务中展示了出色的表征能力。

May, 2024

基于模型的视觉演示逆强化学习

本文介绍了一种基于梯度的反向强化学习框架，利用预训练的视觉动态模型从视觉人类演示中学习成本函数，并通过视觉模型预测控制来复制演示行为，以解决机器人操作中的未知动力学等问题。我们在两个基本的对象操作任务上评估了我们的框架。

Oct, 2020

PlayVirtual: 强化学习中增强循环一致虚拟轨迹

本论文提出了一种名为 PlayVirtual 的新方法，通过增加循环一致的虚拟轨迹以提高数据效率，来增强深度强化学习（RL）特征表示学习，该方法在 Atari 和 DeepMind Control Suite 基准测试中均取得了最先进的性能。

Jun, 2021

MoDem: 利用演示加速视觉基于模型的强化学习

利用演示可以显著提高模型学习效率，在这项工作中，我们确定了利用演示进行模型学习的关键因素，即策略预训练，有针对性的探索和演示数据的过采样，这三个阶段构成了我们的基于模型的 RL 框架。

Dec, 2022

具有逆动力学表示的稳健视觉模仿学习

我们提出了一种新颖的鲁棒模仿学习方法，通过发展逆动力学状态表示学习目标来对齐专家环境和学习环境，通过设计有效的奖励函数来度量行为数据和专家数据之间的相似性，从而在各种视觉扰动和视觉控制任务中实现近乎专家的性能，并显著优于当前最先进的视觉模仿学习方法和鲁棒模仿学习方法。

Oct, 2023

具有连续潜在动力的丰富观测强化学习

針對連續環境中高維感知輸入的強化學習算法的樣本效率和可靠性問題，本研究提出了一種新的理論框架 RichCLD（基於豐富觀測的連續潛在動力學強化學習），其中代理基於高維觀測進行控制，但環境卻由低維潛在狀態和 Lipschitz 連續動力學所控制。我們的主要貢獻是提出了一種新的算法，可以在統計和計算效率方面獲得證明。我們的算法的核心是一個新的表示學習目標；我們表明，適用於離散動力學的先前表示學習方案不自然地擴展到連續環境。我們的新目標易於實施，實驗結果顯示它在標准評估協議中相比先前方案具有競爭優勢。此外，我們對 RichCLD 框架的統計複雜性提供了一些見解，特別是證明了在豐富觀測缺失情況下的樣本效率學習所需的某些 Lipschitz 性質在豐富觀測情況下是不夠的。

May, 2024