连续状态环境中的条件核模仿学习
本文介绍了一种基于序列归纳偏置的,从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法,将复杂任务拆分成较小的技能,将技能训练为 (goal-conditioned policy),以便能够逐个解决每个技能并连接技能以完成整个任务,同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。
Apr, 2022
介绍了一种动态感知的逆强化学习方法 ——IQ-Learn,它通过学习单个 Q 函数来避免对抗性训练,并可在标准测试中取得最好的结果,比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。
Jun, 2021
本论文介绍了一种基于状态观测的逆强化学习算法 IL-flOw,其将奖励建模与策略学习解耦,并利用深度密度估计方法生成奖励信号,避免了对抗训练方法的不稳定性问题。通过使用状态转移概率密度作为正向强化学习的奖励信号,实验结果展示了在大规模机器人控制任务上的优秀表现。
May, 2022
本文介绍了一种新的基于状态的模仿学习算法,借助最近的对抗模仿学习方法,通过将总体优化目标分解为两个子问题并迭代地解决这些子问题,解决了专家和模仿者 MDPs 之间的过渡动力学不匹配问题。作者还通过 OpenAI Gym 的 MuJoCo 运动任务构造了几个有趣的 Markov 决策过程,分析表明该算法在存在过渡动力学不匹配现象时特别有效,而基线 IL 方法则会导致性能下降。
Feb, 2020
我们提出了一种新颖的鲁棒模仿学习方法,通过发展逆动力学状态表示学习目标来对齐专家环境和学习环境,通过设计有效的奖励函数来度量行为数据和专家数据之间的相似性,从而在各种视觉扰动和视觉控制任务中实现近乎专家的性能,并显著优于当前最先进的视觉模仿学习方法和鲁棒模仿学习方法。
Oct, 2023
提出了一种称作 “软 Q 模仿学习” 的新方法,该方法使用强化学习,但不需要学习奖励函数,而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习(GAIL)的方法,可用于标准 Q 学习或离线策略演员 - 评论家算法。
May, 2019
本文介绍了利用基于正态流的模型对状态分布进行估计的应用,该算法针对单个专家轨迹,在许多基准任务上都取得了最先进的表现,并自然地扩展到各种其他设置,包括子采样和仅状态制度。
Apr, 2023
介绍了一种使用基于条件核密度估计的贝叶斯逆转奖励学习(KD-BIRL)的算法,该算法能更有效地近似似然函数和应用于具有复杂和无限状态空间的环境,并在 Gridworld 环境和虚拟 sepsis 治疗任务中展示了其优势。
Mar, 2023
本文提出了一种新的基于可微分物理仿真器的模仿学习方法 (ILD),该方法将物理预设作为先验加入到计算图中进行策略学习,在优化过程中动态选择每个状态的学习目标,实现了单循环结构,提高了稳定性和训练速度。在验证中,ILD 在连续控制任务和变形物体操作任务中表现优异,且只需要一次专家演示。
Jun, 2022
我们研究了交互式模仿学习,其中学习者通过与演示专家的互动查询动作注释,旨在学习一种能够与专家表现竞争性能且使用尽可能少的注释的策略。我们提出了一种名为集成交互式模仿学习(EIIL)的算法框架,可实现此目标。从理论上讲,我们证明了 EIIL 的一个效率优于 oracle 版本能够保证尖锐的后悔,前提是可以访问某个对状态具有 “探索性” 分布的样本。经验上,EIIL 在连续控制任务中明显超过在线和离线模仿学习基准。我们的工作为使用模型集合进行交互式模仿学习的收益开辟了系统研究。
Dec, 2023