终身赌徒优化：无先验和无遗憾

Oct, 2022

Lifelong Bandit Optimization: No Prior and No Regret

Felix Schur, Parnian Kassraie, Jonas Rothfuss, Andreas Krause

TL;DR本文提出 LIBO 算法通过元学习逐步逼近真实核函数以解决序列化 Bandit 优化任务，可配合线性或基于核函数的 Bandit 算法实现次线性的令人满意的性能，文章同时介绍了以联邦学习方式解决序列化 Bandit 优化任务的 F-LIBO 算法。

Abstract

Machine learning algorithms are often repeatedly applied to problems with similar structure over and over again. We focus on solving a sequence of bandit optimization tasks and develop LIBO, an algorithm which adapts to the environment by learning from past experience and becomes more sample-efficient in the process. We assume a kernelized structure where th

machine learning algorithm bandit optimization kernel approximation meta-learning sublinear regret

发现论文，激发创造

元学习对抗性赌博机

本文研究了跨多任务的在线学习问题，设计了一个统一的元算法，旨在优化平均性能。该算法在多臂老虎机和乐观线性优化两个重要情境下提供了特定保证，通过任务平均后悔的降低来提高性能。

May, 2022

Lipschitz Bandits: 遗憾下限和最优算法

研究了随机多臂赌博问题中期望奖励是武器的 Lipschitz 函数的情况，提出了两种算法 OSLB 和 CKL-UCB，并衍生出上限，针对连续武器集合的情况建议首先离散化行动空间再应用算法，同时也考虑到了具有类似性质的背景下文本字形赌博。

May, 2014

元学习对抗强盗算法

该论文研究了具有 bandit feedback 的在线元学习，目的是通过某种自然的相似性度量改善类似的多个任务的性能。

Jul, 2023

增强的上下文黑盒优化

RIBBO 是一种从离线数据中强化学习 Black-Box Optimization 算法的方法，采用表达能力强的序列模型学习多个行为算法和任务产生的优化历史，通过集成 regret-to-go tokens 来自动生成满足用户期望遗憾值的查询点，从而在各种问题上实现了普遍良好的实证性能。

Feb, 2024

带背包的赌博机

介绍了一种称为带背包的赌徒问题的通用模型，结合了随机整数规划和在线学习的方面。该论文提出了两种算法来解决这个问题，它们的报酬接近于信息论上的最优解，但同时带背包的赌徒问题相比传统的赌徒问题更具挑战性。

May, 2013

对抗语境强化学习的核化方法

通过将属于再现核希尔伯特空间的损失函数纳入到对手性线性背景乐队的在线学习问题的研究中，我们提出了一种计算有效的算法，该算法利用一种新的对损失函数进行乐观偏差估计的方法，在对底层内核进行的各种特征值衰减假设下实现接近最佳的后悔保证。

Oct, 2023

随机线性赌器元学习

研究在随机线性赌博任务中的元学习过程，通过从任务分布中采样一类赌博任务来选择平均表现良好的学习算法，该文章考虑了实现 OFUL 算法的一类赌博算法，其中正则化是一个到偏置向量的平方欧几里得距离。我们首先研究了 OFUL 算法偏置的优点，并提出两种估计学习过程中偏差的策略。当任务数增加且任务分布的方差很小时，理论和实验都表明，我们的策略在学习隔离任务方面具有显着优势。

May, 2020

算法选择作为带无限损失的赌博机问题

本文提出一种将算法选择表示为部分信息的赌博问题的简单框架，并将现有的求解器适应于该游戏，证明了其期望遗憾的边界，该算法选择技术的也适用于此。

Jul, 2008

赌博式数据驱动优化

本文介绍一种称为 Bandit 数据驱动优化的迭代预测 - 处方框架，该框架结合在线 Bandit 学习和离线预测分析的优点。我们提出了一种新算法 PROOF，用于解决机器学习管道中四个主要痛点，即小数据，仅在默认干预下收集的数据，沟通差异导致未建模的目标和干预的意外后果。在数值模拟和实际案例分析中表现出优异的性能。

Aug, 2020

未知超参数的无悔贝叶斯优化

本文提出了第一个无后悔的贝叶斯优化算法，它在没有核心参数的先验知识的情况下，可以收敛到最优点。通过在优化过程中逐步调整静态核的超参数并随时间扩展相关函数类，该算法可考虑更复杂的函数候选项。

Jan, 2019