BeTAIL: 人工赛车游戏中基于行为转换的对抗模仿学习

Feb, 2024

BeTAIL: 人工赛车游戏中基于行为转换的对抗模仿学习

BeTAIL: Behavior Transformer Adversarial Imitation Learning from Human Racing Gameplay

Catherine Weaver, Chen Tang, Ce Hao, Kenta Kawamoto, Masayoshi Tomizuka...

TL;DRBeTAIL 是一种结合行为转换（BeT）和在线对抗仿真学习（AIL）的方法，用于建模人类专家的顺序决策流程并纠正动态环境状态的变化，从而改善赛车性能和稳定性。

Abstract

imitation learning learns a policy from demonstrations without requiring hand-designed reward functions. In many robotic tasks, such as autonomous racing, imitated policies must model complex environment dynamics and human decision-making. →

imitation learning sequence modeling adversarial imitation learning behavior transformer racing performance

发现论文，激发创造

通过生成式对抗模仿学习建模人类驾驶行为

本文提出一种通过学习真实世界中的驾驶示范数据来学习神经驾驶策略的方法，并使用广义博弈对抗模型进行智能驾驶行为生成，同时介绍了解决多智能体驾驶建模中存在的问题的多智能体模型，并描述了奖赏信号修正的 reward augmented imitation learning (RAIL) 和 Burn-InfoGAIL 对潜在变化因素进行解耦的方法。在 NGSIM 实验数据集上，成功地模拟了高速公路上的驾驶行为。

Jun, 2020

半监督模仿学习从次优演示中学习团队策略

本文提出了 Bayesian Team Imitation Learner (BTIL) 算法，该算法可用于多智能体领域中的团队序列任务的建模，通过对团队成员的心理状态进行显式建模和推断，从而实现了分散式团队策略的学习。此外，BTIL 采用 Bayesian 的观点，能够从小型数据集合半监督演示中实现样本和标记的高效学习。经过实验，证明了 BTIL 可以从演示中成功地学习团队策略，尽管团队成员的心理状态是会发生变化并可能导致团队不完美的合作。

May, 2022

具有未知转换的可证明高效的对抗性模仿学习

本文旨在探究在不确定转移条件下对对手模仿学习策略的理论基础。我们提出一种算法 MB-TAIL，它可以达到最小最大优化专家样本复杂度并改善了当前已知最佳算法 OAL 的交互复杂度。此外，我们通过将其扩展到函数逼近设置来展示 MB-TAIL 的泛化能力，并证明它可以实现独立于状态空间大小的专家样本和交互复杂度。

Jun, 2023

驾驶模拟的多智能体模仿学习

通过模拟驾驶场景来验证自主车辆的安全性，GAIL 可学习到具有代表性的人类驾驶模型，但在多主体驾驶情境中存在困难，我们通过基于课程学习的参数共享方法扩展 GAIL 以解决这些缺点，PS-GAIL 方法生成的策略在多主体设置下表现优异且能够捕捉人类驾驶员的紧急行为。

Mar, 2018

通过对抗性模仿从动作捕捉学习人类行为

本文介绍应用生成对抗性模仿学习方法，通过有限的高维仿人体运动演示数据，训练神经网络策略以产生类人的运动模式，并利用该方法构建子技能策略解决高维身体姿态控制任务。

Jul, 2017

基于中层输入生成的层次化生成对抗学习在城市环境自动驾驶中的应用

本文提出了一种基于层次化对抗性模仿学习的架构 hGAIL，该架构可以将车辆的传感器感知直接映射到低层动作，并同时学习到中层的输入表征，实现了无人驾驶车辆的自主导航。

Feb, 2023

TAIL：大型预训练模型的任务专用适配器用于模仿学习

TAIL 框架通过使用 LoRA 技术实现对大型预训练模型的高效适应，其在新任务中只使用了 1% 的可训练参数，避免了灾难性遗忘并保持了持续学习环境中的适应能力。

Oct, 2023

高效示教学习的规划

提出了 EfficientImitate 这一基于规划的模仿学习方法，成功地将两类看似不兼容的模仿算法：行为克隆和对抗模仿学习，自然地统一到了一个框架中，实现了在性能和样本效率方面的高水平。

Oct, 2022

任务相关的对抗性模仿学习

本文探讨对抗模仿领域中鉴别器网络学习视觉特征与专家标签之间的虚假关联所造成的关键漏洞，并提出了一种新的解决方案 (TRAIL)，该方法通过优化受限的鉴别器来获得 informative rewards。在实验中，我们展示了 TRAIL 能够在没有访问任何任务奖励的情况下，通过模仿人类的操作来解决具有挑战性的机器人操纵任务，并明显优于其他基于行为克隆和传统 GAIL 的对抗模仿代理模型。

Oct, 2019

基于聚合数据的对抗性模仿学习

通过使用聚合数据上的对抗性模仿学习，我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法，可以同时学习非线性奖励函数和相关的最优策略，并且生成多样化的行为来匹配专家数据的分布。

Nov, 2023