随机低秩赌博机

Dec, 2017

Stochastic Low-Rank Bandits

Branislav Kveton, Csaba Szepesvari, Anup Rao, Zheng Wen, Yasin Abbasi-Yadkori...

TL;DR本文提出了一种名为 LowRankElim 的算法，该算法能够在一定时间复杂度下对一个非负矩阵寻找其的最大值，并且在文献中该类结果首次出现。

Abstract

Many problems in computer vision and recommender systems involve low-rank matrices. In this work, we study the problem of finding the maximum entry of a stochastic low-rank matrix from sequential observations. At

low-rank matrix stochastic learning agent statistically efficient regret

发现论文，激发创造

随机 Rank-1 赌博机

本文基于 stochastic rank-1 bandits 提出了 computationally-efficient 算法 Rank1Elim，该算法可解决在线学习问题，在 rank-1 矩阵中找到最大的条目，且在 K + L，1 / Δ 和 log n 方面的遗憾是线性的。

Aug, 2016

低秩广义线性赌博机问题

提出了一种基于在线到置信区间映射和基于低秩矩阵覆盖的指数加权平均预测器相结合的算法，解决了低秩线性赌博机问题，具体算法延伸自探索子空间再精炼算法，可以使得拥有低秩矩阵 Theta 的线性赌博机达到更好的期望累积损失表现并得到了实验的验证。

Jun, 2020

低秩赌博机的紧致二至无穷奇异子空间恢复

我们研究具有低秩结构的情境强化学习，提出了高效的算法用于策略评估、最佳策略识别和遗憾最小化，这些算法近乎极小化的性能表现可达到理论最优水平。

Feb, 2024

在线低秩矩阵补全

本文研究在线低秩矩阵完成问题，提出了一个基于探索 - 利用策略及用户聚类技术的 OCTAL 方法，可以在多项臂赌博机问题的基础上获取 $ O ({m polylog} (M+N) T^{2/3})$ 的遗憾，并在 Rank-1 情况下得到 $O ({m polylog} (M+N) T^{1/2})$ 的近似率。

Sep, 2022

高效低秩矩阵估计、实验设计和基于武器集的低秩赌博算法

我们提出了一种名为 LowPopArt 的新型低秩矩阵估计方法，其恢复保证取决于一个新颖的量 B (Q)，我们借助这种估计器和实验设计准则推导出两个低秩线性赌博算法，这在一般臂集合上具有改进的遗憾上界。

Feb, 2024

低秩强化学习光谱逐项矩阵估计

研究低秩结构引发的强化学习中的矩阵估计问题，通过简单的基于谱的方法高效地恢复矩阵的奇异子空间并实现最小的逐项误差，从而设计了充分利用低秩结构的强化学习算法，包括低秩赌博机问题的最小遗憾算法和低秩马尔可夫决策过程中的无奖励 RL 的最佳策略识别算法，两种算法均具有最先进的性能保证。

Oct, 2023

广义低秩矩阵强盗问题的高效框架

研究了随机上下文低秩矩阵赌博问题，提出了 G-ESTT 框架和 G-ESTS 框架，分别达到了有限次后悔的上界，并进行了一系列实验来验证算法的可行性和性能。

Jan, 2024

高维线性少参数随机连续武装匪徒问题

考虑了随机连续武装机器人问题，对其低秩矩阵恢复文献的结果进行了研究，导出实现遗憾度上界的高效随机算法。

Dec, 2013

点击反馈的伯努利一级臂老虎机

该研究提出了基于位置的模型来解释用户点击搜索结果的概率，并提出了 Bernoulli rank-1 bandit 和 Rank1ElimKL 算法来解决排名问题。该算法在不同条件下的实验表现证实其较简单的对手策略更加优秀。

Mar, 2017

具有重尾奖励的低秩矩阵赌博机

在随机低秩矩阵赌博模型中，我们提出了一种新的算法 LOTUS，用于处理具有重尾奖励的低秩矩阵赌博问题。该算法在不需要知道秩的情况下，能够以较低的遗憾界处理高维度情况。

Apr, 2024