强化学习下的因果问答
开发能够解决人类对因果性问题的 AI 代理的关键是建立一个全面的自然因果问题数据集。为了填补现有数据集的缺口,作者提出了 CausalQuest 数据集,该数据集包含了来自社交网络、搜索引擎和 AI 助手的 13500 个自然发生的问题。通过人工标注和大型语言模型的协作努力,研究团队成功标记了该数据集,并训练了高性能的因果问题分类器。未来的研究可以在这个数据集和模型的基础上展开。
May, 2024
本文综述了因果强化学习的文献,介绍了其基本概念和如何应对非因果强化学习中的主要挑战,分类并系统地回顾了现有的因果强化学习方法,最后概述了该新兴领域的未解决问题和未来方向。
Jul, 2023
研究通过元强化学习是否可以发现因果推理,在这项研究中,我们训练了一个递归神经网络对包含因果结构的一系列问题进行无模型强化学习,证明了该代理可以在新的情况下进行因果推理,从观测数据中得出因果推断结果以及进行反事实预测,我们提出这种学习方法也可以在复杂的推理场景中进行因果推理,同时该工作还提供了新的强化学习结构探索策略。
Jan, 2019
本文提出了一种名为 causal curiosity 的新的内在奖励方法,通过将其融入强化学习代理中,使代理能够通过自己生成的实验数据,以更少的数据量进行自我监督学习,发现环境中的因果关系,并能够将其应用于更复杂的任务之中。
Oct, 2020
本文研究在机器学习中从观察数据中识别因果关系的问题,探讨如何帮助学习高级变量及其中的因果结构,并介绍了一套基于强化学习的环境用于测试表示学习算法的性能。研究表明,模型中显式地融合结构和模块化有助于因果识别。
Jul, 2021
本篇研究提出了一种新颖的基于强化学习 (RL) 的因果推断方法,通过将 RL 合并到基于排序的模式中,并通过一个编码器 - 解码器架构实现排序生成过程,并最终使用 RL 优化所提出的模型来处理生成的排序,以获得最终的因果图。在合成和真实数据集上的实验结果表明,所提出的方法比现有的 RL-based 方法具有更好的性能。
May, 2021
通过引入因果图模型来显式建模状态生成过程,并通过主动干预学习环境,优化衍生目标,提出了一种在探索阶段使用干预进行因果结构学习,然后在开发阶段使用学习到的因果结构进行策略指导的框架。实验结果表明,我们的方法在因果指导的策略学习和因果结构学习的良性循环的推动下,在故障报警环境中有效且稳健,超越了最先进的基准方法。
Feb, 2024
本研究提出 CausalCF,将因果推理与强化学习相结合,使得该模型在复杂任务上更加稳健,同时,实验表明 CausalCF 已经成为了第一个完整的能够将 Causal Curiosity 和 CoPhy 思想融入的因果强化学习解决方案。
Nov, 2022