双线性强盗问题中的纯探索多任务表示学习

Nov, 2023

双线性强盗问题中的纯探索多任务表示学习

Multi-task Representation Learning for Pure Exploration in Bilinear Bandits

Subhojyoti Mukherjee, Qiaomin Xie, Josiah P. Hanna, Robert Nowak

TL;DR在本研究中，我们研究了在双线性赌博机中进行纯探索问题的多任务表示学习。我们提出了一种名为 GOBLIN 的算法，利用实验设计方法来优化学习全局表示的样本分配，并最小化在个体任务中识别最佳臂对所需的样本数量。据我们所知，这是第一项对具有共享表示的双线性赌博机进行纯探索的样本复杂性分析的研究。我们的结果表明，通过跨任务学习共享表示，与独立解决任务的传统方法相比，我们实现了显着改进的样本复杂性。

Abstract

We study multi-task representation learning for the problem of pure exploration in bilinear bandits. In bilinear bandits, an action takes

multi-task representation learning bilinear bandits pure exploration shared representation sample complexity analysis

发现论文，激发创造

关于全局和局部结构多任务赌博机中表征学习的样本复杂度

研究了多任务赌博机问题中学习最优手臂的样本复杂度，提出了一种算法并与传统算法相比，其样本复杂度更优。

Nov, 2022

线性赌博机和线性强化学习的近似最优表示学习

研究多任务线性臂和线性价值函数近似下的表示学习，并提出了一个可共享表示的算法，可在多任务和时间步数下实现更小的遗憾。

Feb, 2021

核和神经赌博中的纯探索

本文研究了一种新的纯探索选择策略，通过自适应地将每个手臂的特征表示嵌入到低维空间中并仔细处理引起的模型错误，成果展示了该方法在核空间或神经表示中实现的有效维度。实验证明了该方法的有效性。

Jun, 2021

低秩结构下的双线性赌博机

提出了一种具有低秩结构的双线性赌博问题，详细介绍了探索 - 子空间探索 - 再调整（ESTR）算法的两个阶段，并证明了该算法具有更好的遗憾边界和性能优势。

Jan, 2019

线性赌博机中表示学习的影响

研究表征学习如何提高赌博机问题的效率，提出一种可以共享线性表征的新算法来减少后悔，实验结果证明该算法在合适的情况下优于独立运行赌博机的朴素算法，并将该算法推广到无限动作集的情况中。

Oct, 2020

基于元数据的贝叶斯分层模型多任务赌博机

在这篇论文中，我们引入了基于元数据的多任务赌博机问题，提出了一种基于贝叶斯分层模型的任务关系捕捉方法，并设计了一个 Thompson 抽样算法来高效地学习任务关系、共享信息，并最小化累计遗憾。通过对高斯赌博机和伯努利赌博机的分析，我们证明了信息共享的算法的好处。该方法还得到了广泛的实验支持。

Aug, 2021

线性赌臂机中纯探索的完全自适应算法

本文提出了第一个完全自适应的算法用于求解线性赌博机中的最优选择问题，并且其采样复杂度与已有算法相当。此外，通过模拟实验表明，在合成和真实数据集上均远优于现有的方法。

Oct, 2017

BelMan：基于置信度 - 奖励流形的贝叶斯臂选择算法

本文提出了一种基于贝叶斯和信息几何学的通用方法，用于解决多臂赌博机问题的探索 - 开发权衡，并介绍了 BelMan 方法，该方法基于使用伪信念 - 激励的质心来概括赌博臂和其激励分布的知识，在某些特定情况下，BelMan 不仅有竞争力，而且可能优于其他方法。

May, 2018

元学习对抗性赌博机

本文研究了跨多任务的在线学习问题，设计了一个统一的元算法，旨在优化平均性能。该算法在多臂老虎机和乐观线性优化两个重要情境下提供了特定保证，通过任务平均后悔的降低来提高性能。

May, 2022

带背包的赌博机

介绍了一种称为带背包的赌徒问题的通用模型，结合了随机整数规划和在线学习的方面。该论文提出了两种算法来解决这个问题，它们的报酬接近于信息论上的最优解，但同时带背包的赌徒问题相比传统的赌徒问题更具挑战性。

May, 2013