研究了随机上下文低秩矩阵赌博问题,提出了 G-ESTT 框架和 G-ESTS 框架,分别达到了有限次后悔的上界,并进行了一系列实验来验证算法的可行性和性能。
Jan, 2024
提出了一种具有低秩结构的双线性赌博问题,详细介绍了探索 - 子空间探索 - 再调整(ESTR)算法的两个阶段,并证明了该算法具有更好的遗憾边界和性能优势。
Jan, 2019
我们研究具有低秩结构的情境强化学习,提出了高效的算法用于策略评估、最佳策略识别和遗憾最小化,这些算法近乎极小化的性能表现可达到理论最优水平。
Feb, 2024
本文研究基于多维随机向量臂收益的赌博机问题,证明了在解决特定问题时使用相应的相位策略可以达到最优的累计遗憾和贝叶斯风险,并提出了针对通用问题的近似最优解。
Dec, 2008
本文发展了一种数据稀疏 (稀疏线性斯托剖斯) 的新型算法,该算法使较小的环境维度下研究致命后果的风险得以降低,实现了一种有区别的、具有人造和样本方差适应性的总体安全算法。同时,该研究还探讨了如何在一种 <黑盒> 化的方式下将任何方差算法转化为 sparce linear bandits 算法。
May, 2022
本文提出了一种新颖的多维数据和奖励函数非线性性能充分发挥的强大 Bandits 算法,引入了广义低秩张量上下文 Bandits 模型进行决策服务,并证明其优于向量化和矩阵化情况的后悔界。通过一系列仿真和真实数据实验验证了该算法的有效性,充分利用了低秩张量结构来提升学习性能。
Nov, 2023
我们研究了随机线性臂问题,在每一轮中,学习者接收一组动作(即特征向量),从中选择一个元素并获得随机奖励。期望奖励是所选动作的一个固定但未知的线性函数。我们研究了稀疏遗憾界,其依赖于线性奖励函数中的非零系数数目 $S$。先前的研究关注 $S$ 已知的情况,或者动作集满足额外假设的情况。在这项研究中,我们首次获得了在 $S$ 未知且动作集由对手生成时成立的稀疏遗憾界。我们的技术将在线转换为置信区间,并结合一种新颖的层级置信区间随机模型选择方法。当 $S$ 已知时,我们的分析恢复了对于对手动作集的最先进界限。我们还表明,我们的方法的一种变体,使用 Exp3 动态选择置信区间,可用于提高随机线性臂问题的实证性能,同时享受对于时间段的最优遗憾界限。
Jun, 2024
在随机低秩矩阵赌博模型中,我们提出了一种新的算法 LOTUS,用于处理具有重尾奖励的低秩矩阵赌博问题。该算法在不需要知道秩的情况下,能够以较低的遗憾界处理高维度情况。
Apr, 2024
研究高维稀疏特征的随机线性臂模型中,在数据匮乏的情况下,特征向量遵守固定的探测分布,通过探索然后提交算法,得到了 $Ω(n^{2/3})$ 的无维度极小遗憾下界和 $Θ(n^{2/3})$ 的上界。
Nov, 2020
研究线性随机赌博机的噪声模型,介绍一种基于加权最小二乘估计的算法,能够最小化后悔度,通过几何论证独立于噪声模型,能够紧密控制每个时间步骤的期望后悔度为 O (1/t),从而导致了累积后悔度的对数缩放。