面向干预中心因果推理的学习代理
研究通过元强化学习是否可以发现因果推理,在这项研究中,我们训练了一个递归神经网络对包含因果结构的一系列问题进行无模型强化学习,证明了该代理可以在新的情况下进行因果推理,从观测数据中得出因果推断结果以及进行反事实预测,我们提出这种学习方法也可以在复杂的推理场景中进行因果推理,同时该工作还提供了新的强化学习结构探索策略。
Jan, 2019
本文中提出了一种利用元强化学习算法,通过学习干预变量的方法来进行因果发现并构建明确的因果图的方法,研究表明与现有最先进的方法相比表现出的结果更好,揭示了这种干预策略对于该方法性能的贡献。
Jul, 2022
本篇论文介绍了一种基于 agent assessment module 的 AI 系统执行高级指令序列并回答用户问题的方法,通过不同类别的查询来比较这种方法的计算要求和正确模型的学习所需的努力,并介绍了动态因果决策网络来捕捉 STRIPS-like 领域的因果结构。
Aug, 2021
通过在多智能体场景中回答因果询问的概率图模型,扩展因果贝叶斯网络以表示智能体的自由度和目标,放松可行干预的时间顺序限制,提出一种原始因果干预集合来研究复杂干预查询的影响,并通过考虑因果机制设计与承诺,展示到安全人工智能系统的设计。
Jun, 2024
本文论述一种框架,通过交互式体验使自主代理学习抽象因果模型需要扩展并澄清现有的理论基础,该框架将动作描述为状态空间的转换,从而使描述微状态空间的转换和抽象模型的转换成为可能,进而将因果表示和干预技能学习的目标变得更加清晰。
Jun, 2022
通过引入因果图模型来显式建模状态生成过程,并通过主动干预学习环境,优化衍生目标,提出了一种在探索阶段使用干预进行因果结构学习,然后在开发阶段使用学习到的因果结构进行策略指导的框架。实验结果表明,我们的方法在因果指导的策略学习和因果结构学习的良性循环的推动下,在故障报警环境中有效且稳健,超越了最先进的基准方法。
Feb, 2024
研究探索通过推断环境因果结构以收集相关干预数据为手段,建立捕捉传感器运动交互背后真实物理机制的世界模型对于提高深度学习、强化学习、迁移学习和泛化能力至关重要。
Aug, 2022
本文探讨了利用 Causal Inference 理论和 Latent-based causal transition model 在 offline data 的基础上,使用 observational data 可以有效地提高 model-based RL agents 的 generalization guarantees 问题。
Jun, 2021
该论文提出了一种基于强化学习的框架,用于学习代理人策略的潜在表示,通过学习潜在的动态关系,以影响其他代理人,推动其向适合于协同适应的策略方向发展,该方法在多个模拟领域和现实世界的空气曲棍球比赛中表现优异。
Nov, 2020
本文提出一种在元强化学习中用于解决任务信息受限问题的方法,通过利用各种特权信息,分别学习策略和任务信念来解决部分可观测马尔可夫决策问题,从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。
May, 2019