低秩广义线性赌博机问题

Jun, 2020

Low-Rank Generalized Linear Bandit Problems

Yangyi Lu, Amirhossein Meisami, Ambuj Tewari

TL;DR提出了一种基于在线到置信区间映射和基于低秩矩阵覆盖的指数加权平均预测器相结合的算法，解决了低秩线性赌博机问题，具体算法延伸自探索子空间再精炼算法，可以使得拥有低秩矩阵 Theta 的线性赌博机达到更好的期望累积损失表现并得到了实验的验证。

Abstract

In a low-rank linear bandit problem, the reward of an action (represented by a matrix of size $d_1 \times d_2$) is the inner product between the action and an unknown low-rank matrix $\Theta^*$. We propose an alg

linear bandit problem low-rank matrix regret bound covering-based approach explore-subspace-then-refine algorithm

发现论文，激发创造

广义低秩矩阵强盗问题的高效框架

研究了随机上下文低秩矩阵赌博问题，提出了 G-ESTT 框架和 G-ESTS 框架，分别达到了有限次后悔的上界，并进行了一系列实验来验证算法的可行性和性能。

Jan, 2024

低秩结构下的双线性赌博机

提出了一种具有低秩结构的双线性赌博问题，详细介绍了探索 - 子空间探索 - 再调整（ESTR）算法的两个阶段，并证明了该算法具有更好的遗憾边界和性能优势。

Jan, 2019

低秩赌博机的紧致二至无穷奇异子空间恢复

我们研究具有低秩结构的情境强化学习，提出了高效的算法用于策略评估、最佳策略识别和遗憾最小化，这些算法近乎极小化的性能表现可达到理论最优水平。

Feb, 2024

线性参数化赌博机

本文研究基于多维随机向量臂收益的赌博机问题，证明了在解决特定问题时使用相应的相位策略可以达到最优的累计遗憾和贝叶斯风险，并提出了针对通用问题的近似最优解。

Dec, 2008

方差感知稀疏线性赌博机

本文发展了一种数据稀疏 (稀疏线性斯托剖斯) 的新型算法，该算法使较小的环境维度下研究致命后果的风险得以降低，实现了一种有区别的、具有人造和样本方差适应性的总体安全算法。同时，该研究还探讨了如何在一种 <黑盒> 化的方式下将任何方差算法转化为 sparce linear bandits 算法。

May, 2022

高效广义低秩张量内容自助机

本文提出了一种新颖的多维数据和奖励函数非线性性能充分发挥的强大 Bandits 算法，引入了广义低秩张量上下文 Bandits 模型进行决策服务，并证明其优于向量化和矩阵化情况的后悔界。通过一系列仿真和真实数据实验验证了该算法的有效性，充分利用了低秩张量结构来提升学习性能。

Nov, 2023

具有自适应对手的稀疏不可知线性赌博机

我们研究了随机线性臂问题，在每一轮中，学习者接收一组动作（即特征向量），从中选择一个元素并获得随机奖励。期望奖励是所选动作的一个固定但未知的线性函数。我们研究了稀疏遗憾界，其依赖于线性奖励函数中的非零系数数目 $S$。先前的研究关注 $S$ 已知的情况，或者动作集满足额外假设的情况。在这项研究中，我们首次获得了在 $S$ 未知且动作集由对手生成时成立的稀疏遗憾界。我们的技术将在线转换为置信区间，并结合一种新颖的层级置信区间随机模型选择方法。当 $S$ 已知时，我们的分析恢复了对于对手动作集的最先进界限。我们还表明，我们的方法的一种变体，使用 Exp3 动态选择置信区间，可用于提高随机线性臂问题的实证性能，同时享受对于时间段的最优遗憾界限。

Jun, 2024

具有重尾奖励的低秩矩阵赌博机

在随机低秩矩阵赌博模型中，我们提出了一种新的算法 LOTUS，用于处理具有重尾奖励的低秩矩阵赌博问题。该算法在不需要知道秩的情况下，能够以较低的遗憾界处理高维度情况。

Apr, 2024

高维稀疏线性赌博机

研究高维稀疏特征的随机线性臂模型中，在数据匮乏的情况下，特征向量遵守固定的探测分布，通过探索然后提交算法，得到了 $Ω(n^{2/3})$ 的无维度极小遗憾下界和 $Θ(n^{2/3})$ 的上界。

Nov, 2020

多对数级别的极小极大遗憾的线性赌博机

研究线性随机赌博机的噪声模型，介绍一种基于加权最小二乘估计的算法，能够最小化后悔度，通过几何论证独立于噪声模型，能够紧密控制每个时间步骤的期望后悔度为 O (1/t)，从而导致了累积后悔度的对数缩放。

Feb, 2024