使用生成对抗模仿学习学习时间战略关系

May, 2018

使用生成对抗模仿学习学习时间战略关系

Learning Temporal Strategic Relationships using Generative Adversarial Imitation Learning

Tharindu Fernando, Simon Denman, Sridha Sridharan, Clinton Fookes

TL;DR该论文提出了一个新的框架，用于自动学习人类决策中的复杂策略，通过使用两个外部存储模块来捕捉子任务和整个目标之间的关系，并将其用于自主驾驶汽车应用中检验其有效性。

Abstract

This paper presents a novel framework for automatic learning of complex strategies in human decision making. The task that we are interested in is to better facilitate long term planning for complex, multi-step e

automatic learning complex strategies human decision making external memory modules autonomous driving

发现论文，激发创造

通过对抗性模仿从动作捕捉学习人类行为

本文介绍应用生成对抗性模仿学习方法，通过有限的高维仿人体运动演示数据，训练神经网络策略以产生类人的运动模式，并利用该方法构建子技能策略解决高维身体姿态控制任务。

Jul, 2017

可解释的生成对抗拟态学习

提出了一种新颖的模仿学习方法，结合了信号时态逻辑（STL）推理和控制综合，能够明确地表示任务作为一个 STL 公式，在理解学习代理的具体任务方面提供了清晰的理解，并通过手动调整 STL 公式将人类知识纳入，以便适应新的场景。此外，我们采用了生成对抗网络（GAN）受启发的训练方法，既能进行推理，又能进行控制策略，有效地缩小了专家策略和学习策略之间的差距。通过两个案例研究，证明了我们算法的有效性，展示了其实际应用性和适应性。

Feb, 2024

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在 Minecraft 游戏中进行了验证。

Dec, 2017

通过对粗略局部演示进行对抗性模仿来学习敏捷技能

提出一种基于生成对抗学习的方法，通过从部分不兼容的演示中推断奖励函数，实现成功的技能获取，并在四足机器人上测试了后空翻等技能。

Jun, 2022

用生成对抗网络模仿驾驶员行为

采用生成式对抗模仿学习模型训练递归策略，提高了人类驾驶行为仿真在智能交通系统应用中的准确性，具有较高的实用性。

Jan, 2017

领域鲁棒性视觉仿真学习与互信息约束

介绍了一种名为 Disentangling Generative Adversarial Imitation Learning（DisentanGAIL）的新算法，可通过对抗学习来自动学习高维度任务表现观察的特征，从而成功进行模仿，同时忽略专家和代理之间的差异，此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。

Mar, 2021

InfoGAIL：来自视觉示范的可解释性模仿学习

本文提出了一种基于对抗生成模型的模仿学习算法，能够通过无监督学习方法推断出专家示范中隐藏的潜在结构，并可以学习到复杂行为数据可解释且有意义的表示方式，包括图像示范。在驾驶领域中，我们展示了通过人类示范学习的模型能够准确地复现多种行为并能使用原始视觉输入准确地预测人类的行为。相比于其他基线算法，我们的方法能更好地捕捉隐藏在专家示范中的潜在结构，并经常回收到语义上有意义的数据变量。

Mar, 2017

通过学习任务语法来实现人类行为预测

本文介绍了一种新型的深度循环神经网络架构，通过对视频序列中人类活动的进度进行估计，间接地学习了与任务相关的语法，并使用叠加 LSTM 基于多粒度进度估计框架来学习任务语法，并证明了这种方法可以提高预测准确性，比基线的双流预测模型的准确性提高了 9% 以上，同时也优于其他竞争方案。该研究的重点在于人机交互的进展预测领域。

Sep, 2017

战略对话的分层文本生成与规划

本论文介绍了一种学习对话信息表征、提高决策效率的方法，通过解耦对话表述中的语义和语言实现，使用学习到的表征完成对话生成、规划和增强学习等任务，在实验中效果比之前的工作更佳。

Dec, 2017

多智能体基于时间对比学习的迁移学习

该研究介绍了一个用于深度多智能体强化学习的新型迁移学习框架。该方法通过自动组合目标条件策略和时间对比学习，发现有意义的子目标。实验证明，该方法在多智能体协调任务 Overcooked 上能够提高样本效率，解决稀疏奖励和长期规划问题，并且相比基准方法具有更高的可解释性。与最先进的基准方法相比，我们的方法只需要原来的 21.7% 的训练样本就能达到相同或更好的性能。

Jun, 2024