可解释的生成对抗拟态学习

Feb, 2024

Interpretable Generative Adversarial Imitation Learning

Wenliang Liu, Danyang Li, Erfan Aasi, Roberto Tron, Calin Belta

TL;DR提出了一种新颖的模仿学习方法，结合了信号时态逻辑（STL）推理和控制综合，能够明确地表示任务作为一个 STL 公式，在理解学习代理的具体任务方面提供了清晰的理解，并通过手动调整 STL 公式将人类知识纳入，以便适应新的场景。此外，我们采用了生成对抗网络（GAN）受启发的训练方法，既能进行推理，又能进行控制策略，有效地缩小了专家策略和学习策略之间的差距。通过两个案例研究，证明了我们算法的有效性，展示了其实际应用性和适应性。

Abstract

imitation learning methods have demonstrated considerable success in teaching autonomous systems complex tasks through expert demonstrations. However, a limitation of these methods is their lack of interpretability, particularly in understanding the specific task the learning agent aim

imitation learning signal temporal logic (stl)control synthesis generative adversarial network (gan)adaptability

发现论文，激发创造

使用信号时间逻辑从自然语言和演示中进行交互式学习

该研究介绍了一种交互式学习方法，能够从自然语言描述中学习正确、简洁的统一信号时序逻辑公式，并使用深度 Q 学习算法确定机器人的最优控制策略。

Jul, 2022

信号时态逻辑神经预测控制

通过直接学习神经网络控制器以满足信号时间逻辑 (STL) 的要求，以确保长期机器人任务的安全性和满足时间规范的挑战。同时，采用备用策略以保证控制器故障时的安全性。该方法可以适应不同的初始条件和环境参数，并在复杂的 STL 规范任务中以 10 倍至 100 倍速度快于传统方法。

Sep, 2023

领域鲁棒性视觉仿真学习与互信息约束

介绍了一种名为 Disentangling Generative Adversarial Imitation Learning（DisentanGAIL）的新算法，可通过对抗学习来自动学习高维度任务表现观察的特征，从而成功进行模仿，同时忽略专家和代理之间的差异，此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。

Mar, 2021

InfoGAIL：来自视觉示范的可解释性模仿学习

本文提出了一种基于对抗生成模型的模仿学习算法，能够通过无监督学习方法推断出专家示范中隐藏的潜在结构，并可以学习到复杂行为数据可解释且有意义的表示方式，包括图像示范。在驾驶领域中，我们展示了通过人类示范学习的模型能够准确地复现多种行为并能使用原始视觉输入准确地预测人类的行为。相比于其他基线算法，我们的方法能更好地捕捉隐藏在专家示范中的潜在结构，并经常回收到语义上有意义的数据变量。

Mar, 2017

使用强化学习的基于 STL 的反馈控制器综合

研究利用时序逻辑生成奖励对深度强化学习进行实时控制，并在多项复杂连续控制基准测试中证实了新模型相较于现有模型更为合适。

Dec, 2022

符号化模仿学习：从黑盒到可解释的驾驶策略

当前的模仿学习方法在实现高效的驾驶策略从真实世界数据中获益，但在可解释性和泛化性方面存在显著限制。本文通过引入符号模仿学习（SIL）来解决这些限制，它利用归纳逻辑编程（ILP）来学习透明、可解释和泛化的驾驶策略。使用 real-world highD 数据集，我们对 SIL 方法进行了严格的比较分析，结果表明 SIL 不仅提高了驾驶策略的可解释性，而且在各种驾驶情况下显著提高了它们的适用性。因此，本研究为更可靠和更安全的自动驾驶系统提供了一条新途径，强调了将 ILP 整合到 IL 领域的潜力。

Sep, 2023

基于漏斗的信号时序逻辑强化学习

本文介绍一种基于 funnel functions 的可行强化学习算法，用于实现连续状态空间中 STL 规范的鲁棒满足，并在摆和移动机器人示例上演示了该方法的实用性。

Nov, 2022

由时序逻辑信号规范引导的多智能体强化学习

本论文提出了一种新的基于 STL 模板的多智能体强化学习算法以指导奖励设计，实验证明相比没有 STL 指导的情况下，算法能够显著提高多智能体系统的性能和安全性。

Jun, 2023

Q-Learning 用于满足信号时序逻辑规范的稳健性

该论文提出了一种利用近似解决 STL 综合问题的方法，通过最大化已知的效果指标来学习未知随机动态系统的最优策略，在模拟中验证了该方法的有效性。

Sep, 2016

多样行为的鲁棒性模仿

本文提出了一种基于变分自编码器的策略嵌入方法，相比传统的监督学习方法和生成对抗网络的模仿学习，该方法可以从更少的示范数据中学习到更为鲁棒的控制器，并避免了模式坍塌现象。

Jul, 2017