赌博式数据驱动优化

AAAIAug, 2020

Bandit Data-Driven Optimization

Zheyuan Ryan Shi, Zhiwei Steven Wu, Rayid Ghani, Fei Fang

TL;DR本文介绍一种称为 Bandit 数据驱动优化的迭代预测 - 处方框架，该框架结合在线 Bandit 学习和离线预测分析的优点。我们提出了一种新算法 PROOF，用于解决机器学习管道中四个主要痛点，即小数据，仅在默认干预下收集的数据，沟通差异导致未建模的目标和干预的意外后果。在数值模拟和实际案例分析中表现出优异的性能。

Abstract

Applications of machine learning in the non-profit and public sectors often feature an iterative workflow of data acquisition, prediction,

machine learning non-profit public sectors bandit data-driven optimization proof algorithm

发现论文，激发创造

基于赌博机的个性化算法框架中的偏差控制

本研究提出了一种算法框架，使得在通过类似赌博机学习用户喜好进行内容个性化推荐过程中能够控制偏差和歧视，并通过实验验证了该算法的可行性和效果。

Feb, 2018

具有预算信息限制的情境臂控制

文章介绍了一种结合在线 Primal-dual 算法和上下文强化学习算法的优化和学习算法来解决数字健康领域中的个性化治疗问题，并证明该算法具有亚线性后悔界限。

May, 2023

随机赌博机上的数据污染攻击

本文旨在研究敌对攻击策略对多臂赌博算法的影响，并提供了离线攻击和在线攻击的策略，展示了潜在的安全威胁。

May, 2019

基于 Bandit 凸优化的可扩展和动态 IoT 管理

针对在线凸优化中的时间变化的损失函数和约束条件进行分析，提出了一种 bandit online saddle-point（BanSaP）算法，该算法可适应不断变化的损失函数和环境，同时进行优化，在雾计算下的实验表明相对于已有的基于梯度反馈的算法，提出的方法提供了竞争性的性能。

Jul, 2017

从老虎机反馈中学习：现有技术综述

本文综述了针对基于推荐系统的记录进行学习的基于不同离线策略估计器的几种方法，并比较了它们在 RecoGym 模拟环境中的实证表现。

Sep, 2019

使用高斯过程在 Bandit 环境下进行最优化估计

本文研究了一种直接利用未知函数 argmax 估计值的优化策略，并与 GP-UCB 和 GP-PI 策略建立了紧密联系。该方法的自动适应调整探索和利用的权衡，在机器人和视觉任务的广泛实证评估中表现出鲁棒性，通过性能 - 遗憾的界限说明了自适应调整的效果。

Oct, 2015

终身赌徒优化：无先验和无遗憾

本文提出 LIBO 算法通过元学习逐步逼近真实核函数以解决序列化 Bandit 优化任务，可配合线性或基于核函数的 Bandit 算法实现次线性的令人满意的性能，文章同时介绍了以联邦学习方式解决序列化 Bandit 优化任务的 F-LIBO 算法。

Oct, 2022

反事实风险最小化：从带状反馈中学习

开发了一种学习原则和一种有效算法，用于从记录的 bandit 反馈中进行批处理学习。由此产生的 Counterfactual Risk Minimization 原则提供了 POEM 的新学习方法，用于学习结构化输出预测的随机线性规则。

Feb, 2015

算法选择作为带无限损失的赌博机问题

本文提出一种将算法选择表示为部分信息的赌博问题的简单框架，并将现有的求解器适应于该游戏，证明了其期望遗憾的边界，该算法选择技术的也适用于此。

Jul, 2008

在线集群化的赌博机

介绍一种基于自适应聚类探索 - 利用 (“赌徒”) 策略的内容推荐算法，提供标准随机噪声环境下的尖锐遗憾分析，证明其伸缩性属性并在一些人工和实际数据集上证明其有效性。实验结果显示，在赌徒问题上，预测性能显著优于现有技术方法。

Jan, 2014