可解释的模仿学习的动态有向无环图发现
本篇论文介绍了一种基于 agent assessment module 的 AI 系统执行高级指令序列并回答用户问题的方法,通过不同类别的查询来比较这种方法的计算要求和正确模型的学习所需的努力,并介绍了动态因果决策网络来捕捉 STRIPS-like 领域的因果结构。
Aug, 2021
通过引入因果图模型来显式建模状态生成过程,并通过主动干预学习环境,优化衍生目标,提出了一种在探索阶段使用干预进行因果结构学习,然后在开发阶段使用学习到的因果结构进行策略指导的框架。实验结果表明,我们的方法在因果指导的策略学习和因果结构学习的良性循环的推动下,在故障报警环境中有效且稳健,超越了最先进的基准方法。
Feb, 2024
提出了一种名为 GFlowCausal 的新方法,通过逐步添加直接边将图搜索问题转变为生成问题,从而从观测数据中学习一个有向无环图 (DAG),并使用基于可传递闭包的即插即用模块确保高效的采样,理论分析表明,此模块能够有效地保证无环特性和最终状态与完全连接图之间的一致性,实验结果表明该方法具有显著优势,并且在大规模设置下也表现良好。
Oct, 2022
本研究提出一种新的算法,它可以使用生成对抗性模仿学习框架,通过图模型来学习未分割演示中的子任务策略,并通过优化图模型中子任务潜在变量和其生成的轨迹之间的有向信息流来提高性能,同时将该方法与现有的层次策略学习框架 Options 连接起来。
Sep, 2018
介绍了一种基于 AIT 的方法,可快速识别数据生成过程的基础因果结构。该方法可用于离散和连续优化公式,并在模拟到实际数据的多个基准测试中表现出卓越的性能。(Translation: An AIT-based method is introduced to quickly identify the underlying causal structure of the data-generating process, which is applicable for both discrete and continuous optimization formulations of learning the underlying directed acyclic graph from data, and demonstrates superior performance on multiple benchmarks from simulated to real-world data.)
Sep, 2021
提出了一种新颖的模仿学习方法,结合了信号时态逻辑(STL)推理和控制综合,能够明确地表示任务作为一个 STL 公式,在理解学习代理的具体任务方面提供了清晰的理解,并通过手动调整 STL 公式将人类知识纳入,以便适应新的场景。此外,我们采用了生成对抗网络(GAN)受启发的训练方法,既能进行推理,又能进行控制策略,有效地缩小了专家策略和学习策略之间的差距。通过两个案例研究,证明了我们算法的有效性,展示了其实际应用性和适应性。
Feb, 2024
利用行为克隆将策略学习简化为监督学习,但忽略因果关系可能导致因果误识问题,可通过相应的干预(环境交互或专家查询)确定正确的因果模型来解决。研究表明,该问题在多个领域中都存在,例如控制问题和驾驶问题,并经过了与 DAgger 等基线和消融进行验证。
May, 2019