增强的无监督强化学习中的自指
通过在非有奖励的环境中最大化抽象表示空间中的非参数熵,APT探索了环境,从而避免了具有挑战性的密度建模,并且在具有高维观察的环境中表现出色。在 Atari 游戏中,APT 在 12 种游戏上取得人类水平的性能,并且相对于经典的全监督 RL 算法具有高竞争性的表现。在 DMControl 套件中,APT 在渐进性能和数据效率方面击败了所有基线,并显着提高了初学者难以从头开始培训的任务性能。
Mar, 2021
通过自监督回归学习策略网络,提出了一种基于监督损失函数训练深度强化学习智能体的算法(SSRL),该算法无需策略梯度或价值估计,能够通过监督回归数据来稳定提高策略表现并在效率和性能方面与现有算法相媲美,展示了利用监督学习技术解决强化学习问题的潜力。
Jun, 2021
本文提出一种新的内在奖励方法,利用自监督预测模型和核范数来评估历史知识对当前观察的差异,以此解决稀疏奖励的强化学习问题,并在多个基准环境下展示其优越性。
Aug, 2022
本文提出了一种基于无监督RL策略的数据高效视觉控制的方法,通过使用Dyna-MPC等组件的预训练来实现更快的任务适应,并且在大规模实证研究的基础上建立了一种强化学习方法,可以使无监督设计策略的性能大大提高。
Sep, 2022
本文提出了一种名为Intrinsic Reward Matching (IRM)的方法,通过skill discriminator将预训练和下游任务微调这两个阶段的学习结合起来,以更好地匹配内在和下游任务奖励,从而有效地利用预训练技能
Oct, 2022
通过在模型自由学习算法中引入自我监督学习的方法,使其能够实现任务转移;该方法是有监督的,可以在没有奖励标签的情况下进行训练,并且可以快速地部署到新任务中。
May, 2023
深度强化学习的关键是表示方法,这篇论文揭示了多种表示学习方法和理论框架之间的共同性,特别是基于自预测抽象的思想,并给出了学习自预测表示方法的最简算法和实用指南。
Jan, 2024
通过学习结构化表示并利用方向性移动跨越学习的潜在空间,我们提出了一种新的无监督框架,用于从无标签的离线数据中预训练能够捕捉多样化、最优且长程行为的通用策略,并可以在零样本方式下快速适应任意新任务。在模拟机器人的运动和操作基准测试中的实验证明,我们的无监督策略可以以零样本的方式解决目标有条件的和通用 RL 任务,甚至经常优于针对每个场景专门设计的先前方法。
Feb, 2024