提出了一种基于在线到置信区间映射和基于低秩矩阵覆盖的指数加权平均预测器相结合的算法,解决了低秩线性赌博机问题,具体算法延伸自探索子空间再精炼算法,可以使得拥有低秩矩阵 Theta 的线性赌博机达到更好的期望累积损失表现并得到了实验的验证。
Jun, 2020
研究了随机上下文低秩矩阵赌博问题,提出了 G-ESTT 框架和 G-ESTS 框架,分别达到了有限次后悔的上界,并进行了一系列实验来验证算法的可行性和性能。
Jan, 2024
我们研究具有低秩结构的情境强化学习,提出了高效的算法用于策略评估、最佳策略识别和遗憾最小化,这些算法近乎极小化的性能表现可达到理论最优水平。
Feb, 2024
本文研究基于多维随机向量臂收益的赌博机问题,证明了在解决特定问题时使用相应的相位策略可以达到最优的累计遗憾和贝叶斯风险,并提出了针对通用问题的近似最优解。
Dec, 2008
在随机低秩矩阵赌博模型中,我们提出了一种新的算法 LOTUS,用于处理具有重尾奖励的低秩矩阵赌博问题。该算法在不需要知道秩的情况下,能够以较低的遗憾界处理高维度情况。
Apr, 2024
本文提出了一种新颖的多维数据和奖励函数非线性性能充分发挥的强大 Bandits 算法,引入了广义低秩张量上下文 Bandits 模型进行决策服务,并证明其优于向量化和矩阵化情况的后悔界。通过一系列仿真和真实数据实验验证了该算法的有效性,充分利用了低秩张量结构来提升学习性能。
Nov, 2023
介绍了一类广泛的随机赌博问题,其中将臂与相应的奖励映射的函数具有一些已知的结构特性。推导了这些问题的渐近特定情况下的遗憾下界,并且开发了 OSSB 算法,其遗憾匹配了这个基本极限。通过数值实验展示了 OSSB 的效率,并且证明 OSSB 优于包括汤普森取样在内的现有算法。
Nov, 2017
在高维线性赌博机中,通过模型选择来学习隐藏的对称性结构,我们的算法能够达到低预测误差并降低后悔程度。
May, 2024
考虑了随机连续武装机器人问题,对其低秩矩阵恢复文献的结果进行了研究,导出实现遗憾度上界的高效随机算法。
Dec, 2013
本研究给出了一个关于线性奖励算法设计矩阵特征光谱的非渐进下界,以及它对模型选择和聚类的应用。
Jul, 2022