利用混淆和选择偏倚离线数据强化改进赌博算法：一种因果方法

Dec, 2023

利用混淆和选择偏倚离线数据强化改进赌博算法：一种因果方法

Robustly Improving Bandit Algorithms with Confounded and Selection Biased Offline Data: A Causal Approach

Wen Huang, Xintao Wu

TL;DR在这篇论文中，我们研究了一个代理在在线学习阶段利用离线数据来提高每个动作奖励分布估计的困境。我们从因果结构的角度出发，将这个问题分为混淆偏差和选择偏差，并从有偏观测数据中提取鲁棒的因果边界。这些边界包含了真实的平均奖励，并能有效地指导代理学习几乎最优的决策策略。同时，我们进行了上下文和非上下文赌博机环境下的遗憾分析，并展示了先前的因果边界可以帮助持续减少渐近遗憾。

Abstract

This paper studies bandit problems where an agent has access to offline data that might be utilized to potentially improve the estimation of each arm's reward distribution. A major obstacle in this setting is the

发现论文，激发创造

因果选手：通过因果推断学习有效干预

该论文研究在随机环境下使用因果模型来改进在线学习中好的干预率的问题，提出了一种新的算法来利用因果反馈并证明其简单遗憾的边界比不使用额外因果信息的算法严格更好（在所有量上）。

Jun, 2016

多臂老虎机实验中的适应性和混淆

本篇论文研究以往文献未解决的问题，提出了一种新的基于Thompson采样的算法（被称为去混淆Thompson采样），该算法在易于稳定的情况下发挥优越效率，在困难的不稳定情况下也表现出出人意料的韧性，可在具有不稳定上下文影响的武器性能的智能探险算法中应用。

Feb, 2022

因果赌博机的组合式纯探索

通过纯探索算法和可适应性算法的结合，在二元广义线性模型和一般图上提出了一种基于关键因果图的因果带博弈问题计算方法。该方法通过最小化采用次数来最大化干预奖励，从而实现了对干预的精确优化。

Jun, 2022

具有混淆偏差和缺失观察数据的情境赌博政策学习的统一框架

研究离线情境下的由于未观测某些条件变量和数据缺失而引起的偏差和低效问题，提出了一种名为CAP的新算法，在数据的基础上形成奖励函数、建立置信区间，并通过悲观主义的方式贪心地采取行动来学习最优策略。

Mar, 2023

基于数据驱动的悔恨平衡在线模型选择策略

研究随机环境下序列决策中模型选择的效用，并利用数据驱动方法得到候选后悔保证未知的基本学习方法，通过后悔平衡实现模型选择保证。

Jun, 2023

具未知因果图的加性因果赌博机

该研究探讨了在因果图模型下的因果Bandit问题，提出了基于线性问题的算法来解决这个问题，在未知因果图情况下也能有效地辨别最佳干预措施。

Jun, 2023

一种多臂赌博机的随时有效因果推断的实验设计

通过Mixture Adaptive Design (MAD)实验设计，与用户选择的多臂赌博算法结合Bernoulli设计，能够在几乎任何赌博算法中对平均处理效果(ATE)进行连续推论，保证统计有效性和功率，提高MAB实验中ATE推论的覆盖率和功效。

Nov, 2023

混淆预算因果强化学习

我们研究了在由基础因果图模拟的随机环境中学习'好的'干预的问题，其中'好的'干预是指最大化奖励的干预，在预定的预算限制下考虑非均匀成本的干预，我们提出了一种算法以在一般因果图中最小化累积遗憾，并开发了一种算法以在预算设置下最小化简单遗憾。我们的理论保证包括上界和下界，而实证评估结果表明，我们的算法优于现有技术。

Jan, 2024

利用（有偏）信息：带离线数据的多臂老虎机

利用离线数据在随机多臂赌博机的在线学习中进行了改进，提出了一个在线策略MIN-UCB，在给定非平凡上界的情况下优于UCB，适当地选择使用离线数据以提高性能，理论和实验结果都表明MIN-UCB是一个有效的策略。

May, 2024

因果型赌博机: 适应性的帕累托最优前沿, 相对于线性赌博机的简化以及对未知边际分布的限制

本文研究了多臂赌博问题中适应因果结构的问题，探讨了条件性有利结构和任意环境中学习性能的权衡关系，并通过将问题转化为线性赌博设置，首次获得了因果赌博的实例相关界。

Jul, 2024