本文基于 stochastic rank-1 bandits 提出了 computationally-efficient 算法 Rank1Elim,该算法可解决在线学习问题,在 rank-1 矩阵中找到最大的条目,且在 K + L,1 / Δ 和 log n 方面的遗憾是线性的。
Aug, 2016
提出了一种基于在线到置信区间映射和基于低秩矩阵覆盖的指数加权平均预测器相结合的算法,解决了低秩线性赌博机问题,具体算法延伸自探索子空间再精炼算法,可以使得拥有低秩矩阵 Theta 的线性赌博机达到更好的期望累积损失表现并得到了实验的验证。
Jun, 2020
我们研究具有低秩结构的情境强化学习,提出了高效的算法用于策略评估、最佳策略识别和遗憾最小化,这些算法近乎极小化的性能表现可达到理论最优水平。
Feb, 2024
本文研究在线低秩矩阵完成问题,提出了一个基于探索 - 利用策略及用户聚类技术的 OCTAL 方法,可以在多项臂赌博机问题的基础上获取 $ O ({m polylog} (M+N) T^{2/3})$ 的遗憾,并在 Rank-1 情况下得到 $O ({m polylog} (M+N) T^{1/2})$ 的近似率。
Sep, 2022
我们提出了一种名为 LowPopArt 的新型低秩矩阵估计方法,其恢复保证取决于一个新颖的量 B (Q),我们借助这种估计器和实验设计准则推导出两个低秩线性赌博算法,这在一般臂集合上具有改进的遗憾上界。
研究低秩结构引发的强化学习中的矩阵估计问题,通过简单的基于谱的方法高效地恢复矩阵的奇异子空间并实现最小的逐项误差,从而设计了充分利用低秩结构的强化学习算法,包括低秩赌博机问题的最小遗憾算法和低秩马尔可夫决策过程中的无奖励 RL 的最佳策略识别算法,两种算法均具有最先进的性能保证。
Oct, 2023
研究了随机上下文低秩矩阵赌博问题,提出了 G-ESTT 框架和 G-ESTS 框架,分别达到了有限次后悔的上界,并进行了一系列实验来验证算法的可行性和性能。
Jan, 2024
考虑了随机连续武装机器人问题,对其低秩矩阵恢复文献的结果进行了研究,导出实现遗憾度上界的高效随机算法。
Dec, 2013
该研究提出了基于位置的模型来解释用户点击搜索结果的概率,并提出了 Bernoulli rank-1 bandit 和 Rank1ElimKL 算法来解决排名问题。该算法在不同条件下的实验表现证实其较简单的对手策略更加优秀。
Mar, 2017
在随机低秩矩阵赌博模型中,我们提出了一种新的算法 LOTUS,用于处理具有重尾奖励的低秩矩阵赌博问题。该算法在不需要知道秩的情况下,能够以较低的遗憾界处理高维度情况。
Apr, 2024