具未知因果图的加性因果赌博机

Jun, 2023

Additive Causal Bandits with Unknown Graph

Alan Malek, Virginia Aglietti, Silvia Chiappa

TL;DR该研究探讨了在因果图模型下的因果 Bandit 问题，提出了基于线性问题的算法来解决这个问题，在未知因果图情况下也能有效地辨别最佳干预措施。

Abstract

We explore algorithms to select actions in the causal bandit setting where the learner can choose to intervene on a set of random variables related by a causal graph, and the learner sequentially chooses interven

causal bandit intervention causal graph latent confounders linear bandit

发现论文，激发创造

因果赌博机的组合式纯探索

通过纯探索算法和可适应性算法的结合，在二元广义线性模型和一般图上提出了一种基于关键因果图的因果带博弈问题计算方法。该方法通过最小化采用次数来最大化干预奖励，从而实现了对干预的精确优化。

Jun, 2022

混淆预算因果强化学习

我们研究了在由基础因果图模拟的随机环境中学习 ' 好的 ' 干预的问题，其中 ' 好的 ' 干预是指最大化奖励的干预，在预定的预算限制下考虑非均匀成本的干预，我们提出了一种算法以在一般因果图中最小化累积遗憾，并开发了一种算法以在预算设置下最小化简单遗憾。我们的理论保证包括上界和下界，而实证评估结果表明，我们的算法优于现有技术。

Jan, 2024

通过覆盖学习因果图中的良好干预方法

本研究探讨了因果棘手问题，针对给定的因果图和指定的一组干预方案，识别接近最优的干预方案，并通过实验显示了改进。

May, 2023

因果选手：通过因果推断学习有效干预

该论文研究在随机环境下使用因果模型来改进在线学习中好的干预率的问题，提出了一种新的算法来利用因果反馈并证明其简单遗憾的边界比不使用额外因果信息的算法严格更好（在所有量上）。

Jun, 2016

具有自适应上下文的因果情境助推

我们研究了一种因果背景下的情境式赌博问题，学习者基于由其选择的初始干预进行上下文选择。在每一轮开始时，学习者根据其选择的初始行动选择一个随机上下文并获得奖励。通过引入一个与实例相关的因果参数 λ 来实现上界，并且通过使用凸优化来解决赌博探索问题。我们的实验结果验证了我们的理论，并在项目的 GitHub 存储库上发布了我们的代码。

May, 2024

因果型赌博机：适应性的帕累托最优前沿，相对于线性赌博机的简化以及对未知边际分布的限制

本文研究了多臂赌博问题中适应因果结构的问题，探讨了条件性有利结构和任意环境中学习性能的权衡关系，并通过将问题转化为线性赌博设置，首次获得了因果赌博的实例相关界。

Jul, 2024

具有一般因果模型和干预的因果强盗

该论文研究因果强化学习问题，通过考虑因果干预顺序的最小累积遗憾度量来优化回报函数，提出了一种新的方法。

Mar, 2024

适应性在线实验设计用于因果推断

在线学习中基于干预样本历史的分离图系统相匹配的追踪停止因果发现算法优于现有方法，通过较少的样本实现更高准确性的因果图学习。

May, 2024

基于贝叶斯的从未知一般干预中发现因果关系

学习因果有向无环图（DAG）的问题，使用观测和干预实验数据的组合进行研究，采用贝叶斯方法从一般干预中进行因果发现，通过图形特征化和兼容先验的贝叶斯推断保证不可区分结构的分数等价性，利用马尔可夫链蒙特卡洛（MCMC）拟合 DAG、干预目标和导致的父节点集合的后验分布，最后在模拟和真实蛋白质表达数据上评估了所提出的方法。

Dec, 2023

学习未知干预下非参数潜在因果图

本文介绍了一种在潜在空间中通过未知干预重建潜在因果图的方法，不需要进行参数假设，并且不需要已知潜在变量的数量，每个潜在变量最多只需要一个未知干预，通过引入虚集和孤立边的两个新图形概念，可构造性地证明了这种方法的可行性。

Jun, 2023