广义低秩矩阵强盗问题的高效框架

Jan, 2024

广义低秩矩阵强盗问题的高效框架

Efficient Frameworks for Generalized Low-Rank Matrix Bandit Problems

Yue Kang, Cho-Jui Hsieh, Thomas C. M. Lee

TL;DR研究了随机上下文低秩矩阵赌博问题，提出了 G-ESTT 框架和 G-ESTS 框架，分别达到了有限次后悔的上界，并进行了一系列实验来验证算法的可行性和性能。

Abstract

In the stochastic contextual low-rank matrix bandit problem, the expected reward of an action is given by the inner product between the action's feature matrix and some fixed, but initially unknown $d_1$ by $d_2$ matrix $\Theta^*$ with rank $r \ll \{d_1, d_2\}$, and an agent sequential

stochastic contextual low-rank matrix bandit problem g-estt framework g-ests framework regret computational tractable

发现论文，激发创造

低秩广义线性赌博机问题

提出了一种基于在线到置信区间映射和基于低秩矩阵覆盖的指数加权平均预测器相结合的算法，解决了低秩线性赌博机问题，具体算法延伸自探索子空间再精炼算法，可以使得拥有低秩矩阵 Theta 的线性赌博机达到更好的期望累积损失表现并得到了实验的验证。

Jun, 2020

低秩结构下的双线性赌博机

提出了一种具有低秩结构的双线性赌博问题，详细介绍了探索 - 子空间探索 - 再调整（ESTR）算法的两个阶段，并证明了该算法具有更好的遗憾边界和性能优势。

Jan, 2019

高效广义低秩张量内容自助机

本文提出了一种新颖的多维数据和奖励函数非线性性能充分发挥的强大 Bandits 算法，引入了广义低秩张量上下文 Bandits 模型进行决策服务，并证明其优于向量化和矩阵化情况的后悔界。通过一系列仿真和真实数据实验验证了该算法的有效性，充分利用了低秩张量结构来提升学习性能。

Nov, 2023

具有重尾奖励的低秩矩阵赌博机

在随机低秩矩阵赌博模型中，我们提出了一种新的算法 LOTUS，用于处理具有重尾奖励的低秩矩阵赌博问题。该算法在不需要知道秩的情况下，能够以较低的遗憾界处理高维度情况。

Apr, 2024

低秩赌博机的紧致二至无穷奇异子空间恢复

我们研究具有低秩结构的情境强化学习，提出了高效的算法用于策略评估、最佳策略识别和遗憾最小化，这些算法近乎极小化的性能表现可达到理论最优水平。

Feb, 2024

广义线性背景下双重双重稳健汤普森抽样

提出了一种新颖的上下文强化学习算法，使用 double doubly-robust estimator 实现对所有上下文的独立性考虑，并在概率保证条件下证明了广义线性模型赌博机的后悔上限。

Sep, 2022

随机低秩赌博机

本文提出了一种名为 LowRankElim 的算法，该算法能够在一定时间复杂度下对一个非负矩阵寻找其的最大值，并且在文献中该类结果首次出现。

Dec, 2017

具丰富行动集的线性赌博机探索及其对推断的影响

本研究给出了一个关于线性奖励算法设计矩阵特征光谱的非渐进下界，以及它对模型选择和聚类的应用。

Jul, 2022

特征空间中的强化学习：矩阵赌博机、核函数和遗憾界

MatrixRL 是一种在线强化学习算法，可以通过学习概率转换模型的低维表示来缓解维度性的问题，同时可以平衡探索和开发之间的权衡。此算法具有接近于时间 $T$ 和维度 $d$（或 $ ilde {d}$）稳定性的可能性。

May, 2019

高效低秩矩阵估计、实验设计和基于武器集的低秩赌博算法

我们提出了一种名为 LowPopArt 的新型低秩矩阵估计方法，其恢复保证取决于一个新颖的量 B (Q)，我们借助这种估计器和实验设计准则推导出两个低秩线性赌博算法，这在一般臂集合上具有改进的遗憾上界。

Feb, 2024