提出了一种新的算法:Doubly-Robust Lasso Bandit algorithm,它利用线性回归参数的稀疏结构,融合在缺失数据文献中使用的双重稳健技术,解决了高维稀疏环境下多臂赌博机算法的问题,大大减少了调参数量和算法复杂度。
Jul, 2019
本文提出一种基于阈值套索算法的 regret minimization 解决方案,能够更好地应对稀疏随机上下文线性赌博机问题,且不需要对稀疏度等参数有先验知识,理论上的性能约束也有所提高。
Oct, 2020
本文提出了一种算法来解决随机上下文赌博机问题,该问题中特征向量的维数可能很大,但仅有一个小的稀疏特征子集会影响奖励函数,该算法可以在不需要先前了解稀疏度的情况下使用,并在温和条件下,确立了性能方面的紧密后悔界限,同时,我们全面评估了我们提出的算法的性能,并表明即使将正确的稀疏度指数暴露给现有方法,但将其保持对我们算法隐藏,我们的算法也能始终优于现有方法。
Jul, 2020
本文提出了一种用于解决多智能体稀疏背景下的上下文线性赌博问题的新方法,通过使用 Lasso 回归进行维度缩减、回归进行问题解决、结合特定过程和网络结构共享信息,达到降低通信成本、保证最小累计遗憾值的效果,并在合成和真实场景下验证了方法的有效性。
May, 2023
本文提出了针对广义线性情境臂的上界置信度算法,实现了与众不同的性能,同时我们还分析了更简单的上界置信度算法,在特定情况下证明了该算法具有最优的后悔。
Feb, 2017
本研究对线性上下文臂、受限的适应性模型和最优遗憾进行了研究,发现在批次学习模型中只需要 O(log log T)批次进行学习,但在策略转换限制下需 O(dlogdlogT)次策略转换才能达到最优遗憾。
本文研究了一个约束的上下文线性赌博机问题,提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限,针对多臂赌博机情况提出了高效算法,同时给出了问题的下限和模拟结果。
Jun, 2020
介绍了在上下文密集应用中的模型选择问题及其解决方案,该方案适用于线性上下文密集应用,并在先验知识下达到了较低的后验概率。
Jun, 2019
研究高维稀疏特征的随机线性臂模型中,在数据匮乏的情况下,特征向量遵守固定的探测分布,通过探索然后提交算法,得到了 $Ω(n^{2/3})$ 的无维度极小遗憾下界和 $Θ(n^{2/3})$ 的上界。
Nov, 2020
本文旨在解决两个流行的随机线性赌博机问题的模型选择问题,并提出了一种算法来适应未知的问题复杂性,其利用参数范数作为线性赌博机模型选择的标准,以帮助选择正确的模型。