利用视角一致动力学加速数据效率强化学习中的表征学习
本文提出一种自监督表示学习方法,通过正向预测目标同时学习环境状态和动作序列的嵌入表示,以提高强化学习的采样效率和策略学习性能。研究表明,使用本文提出的动作嵌入表示已经能够在低维状态下有效提高模型无关的强化学习的采样效率和峰值性能。同时,结合状态嵌入和动作嵌入表示可以在只进行 100-200 万次环境步骤的情况下,快速、高效地学习高质量的基于目标条件的连续控制策略。
Aug, 2019
本文展示了一种简单的表示学习方法:只依赖于通过潜在时间一致性训练的潜在动态模型,既可以在计划类的强化学习中使用,也可以在基于模型的强化学习中作为策略和价值函数特征使用。该方法在高维度任务上优于模型无关方法,并在样本效率上达到了模型类方法的水平。
Jun, 2023
研究使用视频数据进行决策预训练表示学习,讨论两种情景:观察中的独立同分布噪声和存在外部噪声的困难情景,验证了在不同情境中学习表征方法的样本复杂度和性能表现。
Mar, 2024
通过建模状态转换的动力学方程、优化编码器以满足状态转换过程并区分状态空间和噪声空间,以及从序列元素频率域和多步预测的角度顺序地建模内在动力学方程关系,我们提出了一种内在动力学特征驱动的序列表示学习方法(DSR),并在视觉任务中展示了出色的表征能力。
May, 2024
本文介绍了一种基于梯度的反向强化学习框架,利用预训练的视觉动态模型从视觉人类演示中学习成本函数,并通过视觉模型预测控制来复制演示行为,以解决机器人操作中的未知动力学等问题。我们在两个基本的对象操作任务上评估了我们的框架。
Oct, 2020
本论文提出了一种名为 PlayVirtual 的新方法,通过增加循环一致的虚拟轨迹以提高数据效率,来增强深度强化学习(RL)特征表示学习,该方法在 Atari 和 DeepMind Control Suite 基准测试中均取得了最先进的性能。
Jun, 2021
利用演示可以显著提高模型学习效率,在这项工作中,我们确定了利用演示进行模型学习的关键因素,即策略预训练,有针对性的探索和演示数据的过采样,这三个阶段构成了我们的基于模型的 RL 框架。
Dec, 2022
我们提出了一种新颖的鲁棒模仿学习方法,通过发展逆动力学状态表示学习目标来对齐专家环境和学习环境,通过设计有效的奖励函数来度量行为数据和专家数据之间的相似性,从而在各种视觉扰动和视觉控制任务中实现近乎专家的性能,并显著优于当前最先进的视觉模仿学习方法和鲁棒模仿学习方法。
Oct, 2023
針對連續環境中高維感知輸入的強化學習算法的樣本效率和可靠性問題,本研究提出了一種新的理論框架 RichCLD(基於豐富觀測的連續潛在動力學強化學習),其中代理基於高維觀測進行控制,但環境卻由低維潛在狀態和 Lipschitz 連續動力學所控制。我們的主要貢獻是提出了一種新的算法,可以在統計和計算效率方面獲得證明。我們的算法的核心是一個新的表示學習目標;我們表明,適用於離散動力學的先前表示學習方案不自然地擴展到連續環境。我們的新目標易於實施,實驗結果顯示它在標准評估協議中相比先前方案具有競爭優勢。此外,我們對 RichCLD 框架的統計複雜性提供了一些見解,特別是證明了在豐富觀測缺失情況下的樣本效率學習所需的某些 Lipschitz 性質在豐富觀測情況下是不夠的。
May, 2024