可解释的模仿学习的动态有向无环图发现

Sep, 2023

可解释的模仿学习的动态有向无环图发现

Dynamic DAG Discovery for Interpretable Imitation Learning

ianxiang Zhao, Wenchao Yu, Suhang Wang, Lu Wang, Xiang Zhang...

TL;DR通过曝光由动态因果图表示的知识，以增加神经代理的可解释性并提供更好的解释能力，我们设计了一种自解释的模仿学习框架，能够学习动态因果图以理解模仿学习的决策过程并保持高预测准确性。

Abstract

imitation learning, which learns agent policy by mimicking expert demonstration, has shown promising results in many applications such as medical treatment regimes and self-driving vehicles. However, it remains a difficult task to interpret control policies learned by the agent. Diffic

imitation learning interpretability causal discovery neural agent decision-making

发现论文，激发创造

使用干预学习自主代理端因果模型

本篇论文介绍了一种基于 agent assessment module 的 AI 系统执行高级指令序列并回答用户问题的方法，通过不同类别的查询来比较这种方法的计算要求和正确模型的学习所需的努力，并介绍了动态因果决策网络来捕捉 STRIPS-like 领域的因果结构。

Aug, 2021

学做中：带因果感知策略的在线因果强化学习框架

通过引入因果图模型来显式建模状态生成过程，并通过主动干预学习环境，优化衍生目标，提出了一种在探索阶段使用干预进行因果结构学习，然后在开发阶段使用学习到的因果结构进行策略指导的框架。实验结果表明，我们的方法在因果指导的策略学习和因果结构学习的良性循环的推动下，在故障报警环境中有效且稳健，超越了最先进的基准方法。

Feb, 2024

干预数据的可微因果发现

本文提出了一种新的方法，基于神经网络和流形变换，使用干预数据来学习因果有向无环图，该方法在多种情况下表现出与现有技术相媲美的灵活性和可行性。

Jul, 2020

GFlowCausal: 用于因果发现的生成式流网络

提出了一种名为 GFlowCausal 的新方法，通过逐步添加直接边将图搜索问题转变为生成问题，从而从观测数据中学习一个有向无环图 (DAG)，并使用基于可传递闭包的即插即用模块确保高效的采样，理论分析表明，此模块能够有效地保证无环特性和最终状态与完全连接图之间的一致性，实验结果表明该方法具有显著优势，并且在大规模设置下也表现良好。

Oct, 2022

强化学习因果发现

使用强化学习和编码器 - 解码器模型进行因果发现，生成图中的邻接矩阵以计算奖励，结合预定义分数函数和惩罚项强制保持无环性，提高图搜索能力和灵活性。

Jun, 2019

使用有向信息从未经分段的演示中学习分层策略的 Directed-Info GAIL

本研究提出一种新的算法，它可以使用生成对抗性模仿学习框架，通过图模型来学习未分割演示中的子任务策略，并通过优化图模型中子任务潜在变量和其生成的轨迹之间的有向信息流来提高性能，同时将该方法与现有的层次策略学习框架 Options 连接起来。

Sep, 2018

通用策略的不变因果模仿学习

基于多个环境中的行为演示来学习模仿策略，通过学习跨域不变的特征表示，构建与专家行为匹配的模仿策略，以实现在未见环境中的泛化能力。

Nov, 2023

使用主动干预的神经因果模型学习

介绍了一种基于 AIT 的方法，可快速识别数据生成过程的基础因果结构。该方法可用于离散和连续优化公式，并在模拟到实际数据的多个基准测试中表现出卓越的性能。(Translation: An AIT-based method is introduced to quickly identify the underlying causal structure of the data-generating process, which is applicable for both discrete and continuous optimization formulations of learning the underlying directed acyclic graph from data, and demonstrates superior performance on multiple benchmarks from simulated to real-world data.)

Sep, 2021

可解释的生成对抗拟态学习

提出了一种新颖的模仿学习方法，结合了信号时态逻辑（STL）推理和控制综合，能够明确地表示任务作为一个 STL 公式，在理解学习代理的具体任务方面提供了清晰的理解，并通过手动调整 STL 公式将人类知识纳入，以便适应新的场景。此外，我们采用了生成对抗网络（GAN）受启发的训练方法，既能进行推理，又能进行控制策略，有效地缩小了专家策略和学习策略之间的差距。通过两个案例研究，证明了我们算法的有效性，展示了其实际应用性和适应性。

Feb, 2024

模仿学习中的因果混淆

利用行为克隆将策略学习简化为监督学习，但忽略因果关系可能导致因果误识问题，可通过相应的干预（环境交互或专家查询）确定正确的因果模型来解决。研究表明，该问题在多个领域中都存在，例如控制问题和驾驶问题，并经过了与 DAgger 等基线和消融进行验证。

May, 2019