连续零均值争议正则化仿真学习 (CMZ-DRIL)
提出了一种称作 “软 Q 模仿学习” 的新方法,该方法使用强化学习,但不需要学习奖励函数,而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习(GAIL)的方法,可用于标准 Q 学习或离线策略演员 - 评论家算法。
May, 2019
本文提出了一种基于生成对抗自模仿学习 (GASIL) 的简单正则化方法,旨在通过基于生成对抗模仿学习框架鼓励智能体模仿过去的良好轨迹,而非直接最大化奖励,从而在奖励稀疏和滞后时更容易进行长期信用分配。通过使用 GASIL 作为学习形状奖励函数,将其与任何策略梯度目标轻松结合。实验结果显示,GASIL 改进了 2D PointMass 和 MuJoCo 环境下基于接近策略优化的性能。
Dec, 2018
本文提出了一种基于 ViZDoom 的复杂三维非稳态任务的 CRLMaze Continual 学习策略,可以在非稳态的环境下进行端到端无模型学习,并与其他基线方法相比表现出竞争力。
May, 2019
通过整合模仿学习和强化学习的方法,我们提出了一种能够在模拟环境中训练驾驶策略的框架,通过利用模仿运动先验和安全约束来改善纯克隆方法的闭环行为。结合强化学习和模仿学习,我们展示了我们的方法在闭环模拟驾驶基准测试中取得了最新的成果。
Jun, 2024
本文提出基于 CIRL 和 DDPG 的深度强化学习方法能够在高保真车辆模拟器中,仅基于视觉输入实现驾驶任务,并相较于监督式模仿学习表现更优,特别地,文章为多控制信号专门设计自适应策略和奖励方案,并基于编码技术引导驾驶代理人在一定限制空间内探索,相较以往方法在 CARLA 数据集实验中显著提高了成功率。
Jul, 2018
介绍了一种名为 Disentangling Generative Adversarial Imitation Learning(DisentanGAIL)的新算法,可通过对抗学习来自动学习高维度任务表现观察的特征,从而成功进行模仿,同时忽略专家和代理之间的差异,此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。
Mar, 2021
本文提出了一种贝叶斯框架,用于解决多智能体逆强化学习问题,在多智能体对战场景下建立了一种理论基础,并针对双智能体零和 MIRL 问题提出了一种贝叶斯解决方法,结果表明,奖励先验中协方差结构比均值更重要。
Mar, 2014
本文提出了一种混合的模仿学习方法,将行为克隆和逆向加权分别作为策略和奖励模型,结合软强化学习框架下的无限制行为克隆技术和正则化方法,以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活,具有稳定的学习和最小化的超参数调整。
May, 2023