ABC: 离线模式寻求模仿学习的对抗行为克隆

Nov, 2022

ABC: 离线模式寻求模仿学习的对抗行为克隆

ABC: Adversarial Behavioral Cloning for Offline Mode-Seeking Imitation Learning

Eddy Hudson, Ishan Durugkar, Garrett Warnell, Peter Stone

TL;DR本文介绍了行为克隆（BC）的关键缺陷，由于 BC 是以最大似然为目标函数，因此在以高斯函数表示学习代理的策略时，BC 对状态条件专家动作分布求取均值导致了问题。为了解决这个问题，我们引入了 ABC 方法，它包含 GAN 训练的元素，具有寻找众数的性质，并在玩具领域和 DeepMind 控制套件上的 Hopper 域上进行评估，并表明它胜过标准的 BC。

Abstract

Given a dataset of expert agent interactions with an environment of interest, a viable method to extract an effective agent policy is to estimate the maximum likelihood policy indicated by this data. This approach is commonly referred to as behavioral cloning (BC). In this work, we des

behavioral cloning adversarial behavioral cloning maximum likelihood policy gaussian representation generative adversarial network

发现论文，激发创造

基于模型的离线模仿学习与非专家数据

通过利用最优和次优策略收集的数据集，我们提出了一种可扩展的基于模型的离线模仿学习算法框架，其最坏子优性与专家样本相关的时间视野呈线性，实验证明在模拟连续控制领域中，该算法始终表现优于行为克隆。

Jun, 2022

ADR-BC: 敌对密度加权回归行为克隆

提出 ADR-BC，通过增强密度支持的行为克隆方法，优化策略并避免多步强化学习中的累积偏差，实验证明其在多个任务上均明显优于目前 state-of-the-art 的泛化 IL 基准 CEIL，并且在 Adroit 和 Kitchen 领域中使用真实奖励时比 Implicit Q Learning (IQL) 有 89.5% 的改进。

May, 2024

扩散模型增强的行为克隆

本文提出了一种结合了扩散模型和行为克隆的方法来提高模仿学习的性能，此方法在各种连续控制任务上的性能优于基准方法或者达到了相当竞争的水平。

Feb, 2023

自监督对抗模仿学习

本文提出一个包含鉴别器的行为克隆学习方法，用于解决之前的学习策略容易被困入错误局部最小值的问题，避免了人工干预的需要，利用鉴别器计算得到过渡函数从而帮助学习。

Apr, 2023

从观察中进行行为复制

本研究提出了基于行为克隆的观察学习技术，旨在通过自我监督方式获取经验并观察专家的技能表现来学习任务，并在多个不同的模拟领域展示了与现有技术相当的任务表现和更高的学习速度。

May, 2018

连贯的软件仿真学习

本文提出了一种混合的模仿学习方法，将行为克隆和逆向加权分别作为策略和奖励模型，结合软强化学习框架下的无限制行为克隆技术和正则化方法，以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活，具有稳定的学习和最小化的超参数调整。

May, 2023

通过价值近似在行为克隆中预测失败并请求帮助

该研究提出了一种利用行为克隆值近似的方法，通过学习状态值函数来预测故障，并改进了针对具有挑战性的移动操作任务的失败分类基线。

Feb, 2023

使用数据复制 ABC 进行近似的最大似然估计

提出了一个最大似然方法，使用近似贝叶斯计算（ABC）方法的一般类别的模型。精度依赖于使用小阈值进行比较。所提出的方法显示了如何使用大的阈值，同时增加数据克隆的数量以实现近似最大似然估计.

May, 2015

零样本模仿策略通过演示数据集搜索

使用预训练的基础模型的潜在空间索引演示数据集，通过复制类似情境中的行为来解决具有计算成本的训练过程和策略适应问题，实验结果显示该方法在准确性和知觉评估方面明显优于基于学习的模型，能在 Minecraft 环境中以人类样式表现出智能行为。

Jan, 2024

ABC 轻松统一玻尔兹曼 Q 学习与反事实遗憾最小化

提出了 ABCs（Adaptive Branching through Child stationarity）算法，通过结合 Boltzmann Q-learning（BQL）和 counterfactual regret minimization（CFR）两种算法，实现了在单一智能体和多智能体领域的自适应分支，该算法通过测量环境的奖励和转移动力学的稳定性，在马尔可夫决策过程中，ABCs 收敛到最佳策略，最多比 BQL 慢 O（A）个因子，其中 A 是环境中的动作数量，在两人零和游戏中，ABCs 保证收敛到纳什均衡（假设可以访问用于检测稳定性的完美 Oracle），而 BQL 没有这样的保证，在 OpenSpiel 游戏库和 OpenAI Gym 中基准测试时，ABCs 在既非完全稳定也非完全非稳定的环境中表现出了强大的性能，超过了所有先前的方法。

Feb, 2024