层次化模仿学习的随机环境

Sep, 2023

Hierarchical Imitation Learning for Stochastic Environments

Maximilian Igl, Punit Shah, Paul Mougin, Sirish Srinivasan, Tarun Gupta...

TL;DR針對環境的隨機性，本研究提出了 Robust Type Conditioning (RTC) 方法，通過對隨機抽樣的代理類型進行對抗性訓練，實現了分佈的逼真性，並在任務性能上保持或提升了與最先進方法相比的表現。

Abstract

Many applications of imitation learning require the agent to generate the full distribution of behaviour observed in the training data. For example, to evaluate the safety of autonomous vehicles in simulation, accurate and diverse behaviour models of other road users are paramount. Exi

imitation learning distributional realism hierarchical policies environmental stochasticity robust type conditioning

发现论文，激发创造

泛化自驾车策略的模仿学习及模拟转现实

本文研究应用 Imitation Learning 和 transfer learning 方法解决 Duckietown 场景下的机器人车道跟踪问题，并通过 sim-to-real 方法进行实际环境迁移，最终比较了三种 Imitation Learning 方法和两种 sim-to-real 方法的优缺点。

Jun, 2022

面向分布感知的自主驾驶安全目标预测和符合模型规划

本文提出了一种基于模块化架构的学车任务分解方法，在障碍感知、目标预测和规划方面均取得了优秀的方法，并在 CARLA 模拟器上实现了最新的优秀结果。

Dec, 2022

模仿复杂轨迹：连接低层稳定性和高层行为

我们提出了一个理论框架，用于研究非马尔可夫、潜在多模态（即 “复杂的”）专家示范在非线性动力系统中的模仿。

Jul, 2023

通过对抗性模仿从动作捕捉学习人类行为

本文介绍应用生成对抗性模仿学习方法，通过有限的高维仿人体运动演示数据，训练神经网络策略以产生类人的运动模式，并利用该方法构建子技能策略解决高维身体姿态控制任务。

Jul, 2017

基于条件模仿学习的端到端驾驶

本文提出了一种基于高层指令输入的条件性模仿学习方法，使得经过训练的车辆在测试时间内仍然能够遵循导航指令，本文在仿真实验和机器人卡车实验中对各种条件性模仿学习架构进行了评估和实践。

Oct, 2017

层次性应急规划在随机的、部分可观测的环境下实现更安全的自主驾驶

本篇论文提出了一种针对自主导航任务的端到端方法，包括学习强有力的应急计划以及将其与分层规划器相结合，以应对其信念突然改变的情况。研究表明，该方法能够在部分可观察的随机环境中实现健壮性安全行为，并能很好地推广至训练过程中未见过的环境动态。

Apr, 2022

条件模仿学习和指令增强实现更安全的端到端自动驾驶

本研究提出了基于分离式概率潜变量模型来生成方向盘操控命令的新方法，以实现对自动驾驶汽车进行高层次控制的目的，并扩展了模型以训练对异常方向盘操控命令具有弹性的控制器，达到了在可靠性和可解释性方面均优于当今最先进的技术水平的目的。

Sep, 2019

零样本 Sim2Real 环境自适应

提出了使用 Reverse Action Transformation（RAT）策略的方法来解决模拟到现实世界之间的转换问题，并且和其他基线模型相比，在连续控制任务中可实现零样本适应。

Feb, 2023

闭环中学习真实交通代理

使用闭环模拟学习方法 RTR，在模拟和真实数据集中训练交通仿真策略，以提高交通规则遵守性和仿真的真实性。

Nov, 2023

基于层次逆强化学习的交互式驾驶行为概率预测

讨论自动驾驶车辆如何通过基于层次逆强化学习的概率预测方法，准确预测周围车辆的行为并进行规划，以此应对人类行为的不确定性和交互作用。

Sep, 2018