ADR-BC: 敌对密度加权回归行为克隆

May, 2024

ADR-BC: 敌对密度加权回归行为克隆

ADR-BC: Adversarial Density Weighted Regression Behavior Cloning

Ziqi Zhang, Zifeng Zhuang, Donglin Wang, Jingzehua Xu, Miao Liu...

TL;DR提出 ADR-BC，通过增强密度支持的行为克隆方法，优化策略并避免多步强化学习中的累积偏差，实验证明其在多个任务上均明显优于目前 state-of-the-art 的泛化 IL 基准 CEIL，并且在 Adroit 和 Kitchen 领域中使用真实奖励时比 Implicit Q Learning (IQL) 有 89.5% 的改进。

Abstract

Typically, traditional imitation learning (IL) methods first shape a reward or Q function and then use this shaped function within a reinforcement learning (RL) framework to optimize the empirical policy. However, if the shaped reward/Q function does not adequately represent the ground

imitation learning behavior cloning cumulative bias policy optimization expert distribution

发现论文，激发创造

ABC: 离线模式寻求模仿学习的对抗行为克隆

本文介绍了行为克隆（BC）的关键缺陷，由于 BC 是以最大似然为目标函数，因此在以高斯函数表示学习代理的策略时，BC 对状态条件专家动作分布求取均值导致了问题。为了解决这个问题，我们引入了 ABC 方法，它包含 GAN 训练的元素，具有寻找众数的性质，并在玩具领域和 DeepMind 控制套件上的 Hopper 域上进行评估，并表明它胜过标准的 BC。

Nov, 2022

连贯的软件仿真学习

本文提出了一种混合的模仿学习方法，将行为克隆和逆向加权分别作为策略和奖励模型，结合软强化学习框架下的无限制行为克隆技术和正则化方法，以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活，具有稳定的学习和最小化的超参数调整。

May, 2023

扩散模型增强的行为克隆

本文提出了一种结合了扩散模型和行为克隆的方法来提高模仿学习的性能，此方法在各种连续控制任务上的性能优于基准方法或者达到了相当竞争的水平。

Feb, 2023

SQIL: 通过稀疏奖励加强学习实现的模仿学习

提出了一种称作 “软 Q 模仿学习” 的新方法，该方法使用强化学习，但不需要学习奖励函数，而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习（GAIL）的方法，可用于标准 Q 学习或离线策略演员 - 评论家算法。

May, 2019

行为克隆用于离线强化学习的可靠条件化

本文介绍了一种改进版的行为克隆方法，即 ConserWeightive Behavioral Cloning，该方法包含轨迹权重和保守正则化两个核心组件，通过提高高回报轨迹的权重和鼓励策略在数据分布附近保持稳定，从而提高条件行为克隆的可靠性，并在多个基准测试中得到良好表现。

Oct, 2022

从亚优示例中进行判别器加权的离线模仿学习

本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法，该算法额外引入了一个鉴别器来区分专家和非专家数据，并将其输出作为 behavioural cloning 的损失权重，实验结果表明该算法可以提高回报率和训练速度。

Jul, 2022

基于模型的离线模仿学习与非专家数据

通过利用最优和次优策略收集的数据集，我们提出了一种可扩展的基于模型的离线模仿学习算法框架，其最坏子优性与专家样本相关的时间视野呈线性，实验证明在模拟连续控制领域中，该算法始终表现优于行为克隆。

Jun, 2022

基于聚合数据的对抗性模仿学习

通过使用聚合数据上的对抗性模仿学习，我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法，可以同时学习非线性奖励函数和相关的最优策略，并且生成多样化的行为来匹配专家数据的分布。

Nov, 2023

IQ-Learn: 逆软 Q 学习用于模仿

介绍了一种动态感知的逆强化学习方法 ——IQ-Learn，它通过学习单个 Q 函数来避免对抗性训练，并可在标准测试中取得最好的结果，比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。

Jun, 2021

鉴别器 - 演员 - 评论家：解决对抗性模仿学习中样本低效和奖励倾向的问题

使用新算法 “Discriminator-Actor-Critic”，提出解决基于 Adversarial Imitation Learning 框架的两个问题：隐式偏差和与环境产生大量交互所需的复杂性。该算法使用离线策略强化学习来降低策略 - 环境交互采样复杂度，并且由于我们的奖励函数是设计为无偏差的，因此可以在许多问题上应用而不进行任何任务特定的调整。

Sep, 2018