连续零均值争议正则化仿真学习 (CMZ-DRIL)

Mar, 2024

连续零均值争议正则化仿真学习 (CMZ-DRIL)

Continuous Mean-Zero Disagreement-Regularized Imitation Learning (CMZ-DRIL)

Noah Ford, Ryan W. Gardner, Austin Juhl, Nathan Larson

TL;DR用连续的、均值为零的奖励函数通过模拟专家展示学习的方法，在有限的专家演示情况下提高模仿学习代理的性能。

Abstract

Machine-learning paradigms such as imitation learning and reinforcement learning can generate highly performant agents in a variety of complex environments. However, commonly used methods require large quantities of data and/or a known →

machine learning imitation learning reinforcement learning reward function ensemble learning

发现论文，激发创造

SQIL: 通过稀疏奖励加强学习实现的模仿学习

提出了一种称作 “软 Q 模仿学习” 的新方法，该方法使用强化学习，但不需要学习奖励函数，而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习（GAIL）的方法，可用于标准 Q 学习或离线策略演员 - 评论家算法。

May, 2019

生成敌对自模仿学习

本文提出了一种基于生成对抗自模仿学习 (GASIL) 的简单正则化方法，旨在通过基于生成对抗模仿学习框架鼓励智能体模仿过去的良好轨迹，而非直接最大化奖励，从而在奖励稀疏和滞后时更容易进行长期信用分配。通过使用 GASIL 作为学习形状奖励函数，将其与任何策略梯度目标轻松结合。实验结果显示，GASIL 改进了 2D PointMass 和 MuJoCo 环境下基于接近策略优化的性能。

Dec, 2018

3D 非静态环境下的持续强化学习

本文提出了一种基于 ViZDoom 的复杂三维非稳态任务的 CRLMaze Continual 学习策略，可以在非稳态的环境下进行端到端无模型学习，并与其他基线方法相比表现出竞争力。

May, 2019

CIMRL: 结合仿真与强化学习的安全自动驾驶

通过整合模仿学习和强化学习的方法，我们提出了一种能够在模拟环境中训练驾驶策略的框架，通过利用模仿运动先验和安全约束来改善纯克隆方法的闭环行为。结合强化学习和模仿学习，我们展示了我们的方法在闭环模拟驾驶基准测试中取得了最新的成果。

Jun, 2024

基于视觉的可控模仿强化学习在自动驾驶中的应用

本文提出基于 CIRL 和 DDPG 的深度强化学习方法能够在高保真车辆模拟器中，仅基于视觉输入实现驾驶任务，并相较于监督式模仿学习表现更优，特别地，文章为多控制信号专门设计自适应策略和奖励方案，并基于编码技术引导驾驶代理人在一定限制空间内探索，相较以往方法在 CARLA 数据集实验中显著提高了成功率。

Jul, 2018

外部奖励的软 Q 模仿学习和判别器

利用鉴别器的软 Q 模仿学习算法（DSQIL）结合通过对抗逆强化学习的奖励函数，对小规模样本数据进行高效、鲁棒的模仿学习与训练。

Jan, 2024

领域鲁棒性视觉仿真学习与互信息约束

介绍了一种名为 Disentangling Generative Adversarial Imitation Learning（DisentanGAIL）的新算法，可通过对抗学习来自动学习高维度任务表现观察的特征，从而成功进行模仿，同时忽略专家和代理之间的差异，此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。

Mar, 2021

鉴别器指导的基于模型的离线模仿学习

该论文提出了一种基于鉴别器指导的模型辅助离线仿真学习框架，该框架采用协作对抗学习策略，能够显著提高在小数据集下的性能和鲁棒性。

Jul, 2022

二人零和博弈的多智能体逆强化学习

本文提出了一种贝叶斯框架，用于解决多智能体逆强化学习问题，在多智能体对战场景下建立了一种理论基础，并针对双智能体零和 MIRL 问题提出了一种贝叶斯解决方法，结果表明，奖励先验中协方差结构比均值更重要。

Mar, 2014

连贯的软件仿真学习

本文提出了一种混合的模仿学习方法，将行为克隆和逆向加权分别作为策略和奖励模型，结合软强化学习框架下的无限制行为克隆技术和正则化方法，以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活，具有稳定的学习和最小化的超参数调整。

May, 2023