外部奖励的软 Q 模仿学习和判别器

Jan, 2024

外部奖励的软 Q 模仿学习和判别器

Extrinsicaly Rewarded Soft Q Imitation Learning with Discriminator

Ryoma Furuyama, Daiki Kuyoshi, Satoshi Yamane

TL;DR利用鉴别器的软 Q 模仿学习算法（DSQIL）结合通过对抗逆强化学习的奖励函数，对小规模样本数据进行高效、鲁棒的模仿学习与训练。

Abstract

imitation learning is often used in addition to reinforcement learning in environments where reward design is difficult or where the rewar

imitation learning reinforcement learning reward design distribution shift adversarial inverse reinforcement learning

发现论文，激发创造

SQIL: 通过稀疏奖励加强学习实现的模仿学习

提出了一种称作 “软 Q 模仿学习” 的新方法，该方法使用强化学习，但不需要学习奖励函数，而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习（GAIL）的方法，可用于标准 Q 学习或离线策略演员 - 评论家算法。

May, 2019

IQ-Learn: 逆软 Q 学习用于模仿

介绍了一种动态感知的逆强化学习方法 ——IQ-Learn，它通过学习单个 Q 函数来避免对抗性训练，并可在标准测试中取得最好的结果，比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。

Jun, 2021

连贯的软件仿真学习

本文提出了一种混合的模仿学习方法，将行为克隆和逆向加权分别作为策略和奖励模型，结合软强化学习框架下的无限制行为克隆技术和正则化方法，以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活，具有稳定的学习和最小化的超参数调整。

May, 2023

反向软 Q 学习用于离线模仿与次优示范

离线模仿学习主要通过有限的专家演示和较大的次优演示来提出一种基于反向软 Q 学习的新方法，通过添加正则化项来对齐学习得到的回报函数，从而有效解决离线模仿学习中的过拟合问题和训练向次优策略靠拢的问题。该方法在标准基准测试中明显优于其他离线模仿学习方法。

Feb, 2024

RILe: 强化模仿学习

RILe 是一个学生 - 教师系统，通过根据学生的表现和与专家演示的一致性动态调整奖励函数，实现对不完美数据的鲁棒性，并在具有有限或嘈杂专家数据的环境中优于现有方法的 2 倍。

Jun, 2024

对话生成：从模仿学习到逆强化学习

通过采用敌对模仿学习和敌对逆强化学习的方法，提出了一种新的对话生成奖励模型，可用于更精确地指导生成器训练，实验结果表明其有效性。

Dec, 2018

LS-IQ: 隐式奖励正则化的逆强化学习

本文研究了使用正则化的隐式奖励函数来解决穿透状态和不稳定性问题，提出了一种新的方法，即最小二乘逆 Q 学习方法 (LS-IQ)，在关键领域取得了最好的性能，特别是在存在穿透状态的环境中。并且我们提出使用逆动力学模型来仅仅通过观察就开始学习。

Mar, 2023

量子模仿学习

本文提出了量子模仿学习（QIL）概念及其实现方法，采用 Variational Quantum Circuits（VQCs）替代 Deep Neural Networks（DNNs）以提高表达能力，并利用 Quantum Advantage 加速模型训练，在 offline 和 online 两种情形下分别采取 Quantum Behavioural Cloning （Q-BC）和 Quantum Generative Adversarial Imitation Learning （Q-GAIL）两种算法进行训练，并在实验中验证了其与经典算法相当的性能。此研究有望开创量子时代人工智能的先河。

Apr, 2023

生成敌对自模仿学习

本文提出了一种基于生成对抗自模仿学习 (GASIL) 的简单正则化方法，旨在通过基于生成对抗模仿学习框架鼓励智能体模仿过去的良好轨迹，而非直接最大化奖励，从而在奖励稀疏和滞后时更容易进行长期信用分配。通过使用 GASIL 作为学习形状奖励函数，将其与任何策略梯度目标轻松结合。实验结果显示，GASIL 改进了 2D PointMass 和 MuJoCo 环境下基于接近策略优化的性能。

Dec, 2018

视频游戏的逆强化学习

通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入，本文在简单的 Catcher 游戏上取得了高水平表现，显著超越了 CNN-AIRL 基线，但在 Enduro Atari 赛车游戏中表现不佳，这彰显了需要进一步研究的必要性。

Oct, 2018