低秩结构下的双线性赌博机

ICMLJan, 2019

Bilinear Bandits with Low-rank Structure

Kwang-Sung Jun, Rebecca Willett, Stephen Wright, Robert Nowak

TL;DR提出了一种具有低秩结构的双线性赌博问题，详细介绍了探索 - 子空间探索 - 再调整（ESTR）算法的两个阶段，并证明了该算法具有更好的遗憾边界和性能优势。

Abstract

We introduce the bilinear bandit problem with low-rank structure in which an action takes the form of a pair of arms from two different entity types, and the reward is a bilinear function of the known feature vec

bilinear bandit problem low-rank structure explore-subspace-then-refine regret bound linear bandit reduction

发现论文，激发创造

低秩广义线性赌博机问题

提出了一种基于在线到置信区间映射和基于低秩矩阵覆盖的指数加权平均预测器相结合的算法，解决了低秩线性赌博机问题，具体算法延伸自探索子空间再精炼算法，可以使得拥有低秩矩阵 Theta 的线性赌博机达到更好的期望累积损失表现并得到了实验的验证。

Jun, 2020

广义低秩矩阵强盗问题的高效框架

研究了随机上下文低秩矩阵赌博问题，提出了 G-ESTT 框架和 G-ESTS 框架，分别达到了有限次后悔的上界，并进行了一系列实验来验证算法的可行性和性能。

Jan, 2024

低秩赌博机的紧致二至无穷奇异子空间恢复

我们研究具有低秩结构的情境强化学习，提出了高效的算法用于策略评估、最佳策略识别和遗憾最小化，这些算法近乎极小化的性能表现可达到理论最优水平。

Feb, 2024

线性参数化赌博机

本文研究基于多维随机向量臂收益的赌博机问题，证明了在解决特定问题时使用相应的相位策略可以达到最优的累计遗憾和贝叶斯风险，并提出了针对通用问题的近似最优解。

Dec, 2008

具有重尾奖励的低秩矩阵赌博机

在随机低秩矩阵赌博模型中，我们提出了一种新的算法 LOTUS，用于处理具有重尾奖励的低秩矩阵赌博问题。该算法在不需要知道秩的情况下，能够以较低的遗憾界处理高维度情况。

Apr, 2024

高效广义低秩张量内容自助机

本文提出了一种新颖的多维数据和奖励函数非线性性能充分发挥的强大 Bandits 算法，引入了广义低秩张量上下文 Bandits 模型进行决策服务，并证明其优于向量化和矩阵化情况的后悔界。通过一系列仿真和真实数据实验验证了该算法的有效性，充分利用了低秩张量结构来提升学习性能。

Nov, 2023

结构化随机赌臂问题中的最小探索

介绍了一类广泛的随机赌博问题，其中将臂与相应的奖励映射的函数具有一些已知的结构特性。推导了这些问题的渐近特定情况下的遗憾下界，并且开发了 OSSB 算法，其遗憾匹配了这个基本极限。通过数值实验展示了 OSSB 的效率，并且证明 OSSB 优于包括汤普森取样在内的现有算法。

Nov, 2017

具有隐藏对称性的对称线性赌博算法

在高维线性赌博机中，通过模型选择来学习隐藏的对称性结构，我们的算法能够达到低预测误差并降低后悔程度。

May, 2024

高维线性少参数随机连续武装匪徒问题

考虑了随机连续武装机器人问题，对其低秩矩阵恢复文献的结果进行了研究，导出实现遗憾度上界的高效随机算法。

Dec, 2013

具丰富行动集的线性赌博机探索及其对推断的影响

本研究给出了一个关于线性奖励算法设计矩阵特征光谱的非渐进下界，以及它对模型选择和聚类的应用。

Jul, 2022