通过从无动作演示中推断潜在动作,我们介绍了一种名为 LAPO 的方法,它可以有效地预训练深度强化学习模型,并且可以快速微调以实现专家级表现。这为在网上大量的无动作演示中预训练强大而通用的强化学习模型提供了重要基础。
Dec, 2023
本文章研究了在没有积极的环境交互的情况下从观测数据学习行动的机制,并引入了 “tandem learning” 实验模型来帮助理解离线强化学习的挑战,并发现函数逼近与固定数据分布是离线深度强化学习中最强的因素,对离线深度强化学习提供了有价值的见解,同时也为在线控制学习中观察到的现象提供了新的解释。
Oct, 2021
本文探讨了利用 Causal Inference 理论和 Latent-based causal transition model 在 offline data 的基础上,使用 observational data 可以有效地提高 model-based RL agents 的 generalization guarantees 问题。
Jun, 2021
本研究提出了一种层次化的方法,将模仿学习和离线强化学习的优点相结合,学习从高维相机观察中获得与任务无关的长时程策略,并通过技能链接来合并潜在的行为先验,以达到以前未见的技能组合,从而更好地控制机器人的实验结果。
Sep, 2022
研究使用视频数据进行决策预训练表示学习,讨论两种情景:观察中的独立同分布噪声和存在外部噪声的困难情景,验证了在不同情境中学习表征方法的样本复杂度和性能表现。
Mar, 2024
该论文介绍了一种离线强化学习的方法,使用压缩的潜在技能建模支援轨迹序列,避免外推错误,并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息,改进了信用分配,并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能,特别擅长长期,稀疏奖励任务。
Sep, 2023
基于视觉观测的模仿学习的研究,在部分可观察环境中,引入了基于状态潜在转换分布的上界来分析学习代理的次优性,并提出了一种名为潜在对抗性观测模仿学的算法,在高维连续机器人任务中表现出与最先进的性能,同时提供显著的计算优势,并可以利用专家视频来提高从像素进行强化学习的效率。
本文介绍了一种基于人类经验学习实现强化学习的方法,该方法利用了人类视频经验中丰富的视觉信息,结合机器人自身收集的数据,在学习视觉技能方面取得了比常规方法更好的效果。
Nov, 2020
本文提出了使用自回归进行离线机器人技能学习,并通过先前的数据学习环境的形式理解,该方法可以处理高维相机图像,可以学习到许多技能,并通过一系列技术进行训练,此方法具有较强的泛化能力,可以在多个目标之间进行目标链接,通过预训练或辅助目标学习到丰富的表示。
Apr, 2021
通过对专家数据的模仿学习,代理人可以通过对因果关系和实验的被动学习来推断和使用没有出现在训练数据中的因果链接,并可以推广到在训练中从未观察到的变量集。
May, 2023