反向软 Q 学习用于离线模仿与次优示范
介绍了一种动态感知的逆强化学习方法 ——IQ-Learn,它通过学习单个 Q 函数来避免对抗性训练,并可在标准测试中取得最好的结果,比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。
Jun, 2021
本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法,该算法额外引入了一个鉴别器来区分专家和非专家数据,并将其输出作为 behavioural cloning 的损失权重,实验结果表明该算法可以提高回报率和训练速度。
Jul, 2022
本文提出了一种针对少量优秀数据和大量劣质数据的离线模仿学习问题的解决方案,并且采用了一种松弛的 f - 分布来对策略的支持进行规范化,结果表明在六个标准连续控制环境中,相较于最优先的离线模仿学习方法,本文提出的 RelaxDICE 平均性能提升了 30%以上。
Mar, 2023
离线仿真学习(IL)在实际领域中由于专家数据的稀缺性而受到越来越多的关注。本文介绍了一种简单而有效的数据选择方法,基于其结果状态识别积极行为,从而更好地利用动态信息并有效地提取专家行为和有益的多样行为。通过在复杂和高维离线 IL 基准测试中的实验评估,结果表明我们的方法达到了最先进的性能,在 20/21 个基准测试中超越了现有方法,通常是 2-5 倍,并且与行为克隆(BC)保持可比的运行时间。
May, 2024
提出了一种称作 “软 Q 模仿学习” 的新方法,该方法使用强化学习,但不需要学习奖励函数,而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习(GAIL)的方法,可用于标准 Q 学习或离线策略演员 - 评论家算法。
May, 2019
提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法,通过将状态价值函数视为随机变量,利用泛化能力估计在给定状态下最佳可用行为的价值,实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。
Oct, 2021
该论文提出了一种针对合作多智能体系统的新颖多智能体模仿学习算法,通过使用混合网络聚合分散的 Q 函数,实现了集中式学习,并在具有高度挑战性的竞争性和合作性多智能体游戏环境中进行了广泛实验,表明该算法相对于现有的多智能体模仿学习算法具有显著的有效性。
Oct, 2023
本文提出了一种名为 policy customization 的新问题设置,旨在训练一种具有先前策略特征的新策略,同时满足来自下游任务的一些额外要求。针对此问题,我们提出了一种新的框架 Residual Q-learning,可实现离线和在线政策定制,在各种环境中有效地完成任务。
Jun, 2023
本文提出了 SEILO,这是一种新颖的 ILO 的样本有效的 on-policy 算法,结合了标准的对抗性模仿学习和逆动力学建模,通过此方法能够使智能体从对手过程和行为克隆损失中接收反馈,我们实证表明,相比于其他现有的 on-policy ILO 和 ILD 方法,我们所提出的算法需要更少的与环境的交互才能实现专家绩效。
Jun, 2023