双重稳健套索赌博机
本文提出一种基于阈值套索算法的 regret minimization 解决方案,能够更好地应对稀疏随机上下文线性赌博机问题,且不需要对稀疏度等参数有先验知识,理论上的性能约束也有所提高。
Oct, 2020
本文提出了针对广义线性情境臂的上界置信度算法,实现了与众不同的性能,同时我们还分析了更简单的上界置信度算法,在特定情况下证明了该算法具有最优的后悔。
Feb, 2017
这篇论文研究了一种稀疏线性的随机赌博问题,其中只有稀疏的上下文特征子集影响预期的回报函数。作者提出了一个算法,借助强制抽样技术,在单参数设置下表现出 polylog 的 dT 遗憾,相较于 Lasso 赌博算法,该算法假设更弱且性能更好。
Jun, 2024
提出了一种新颖的上下文强化学习算法,使用 double doubly-robust estimator 实现对所有上下文的独立性考虑,并在概率保证条件下证明了广义线性模型赌博机的后悔上限。
Sep, 2022
本文提出一种名为 DR Thompson Sampling 的多臂上下文赌博算法,并利用缺失数据文献中使用的双重稳健估计器提供先验概率在最坏情况下的保证率和次均方误差,具体表现为对因变量和全部或几个自变量进行回归的误差。他们发现该方法在实践中的表现优于 LinTS。
Feb, 2021
针对经典 $K$-armed 线性上下文对抗性问题,我们开发了基于 Exp3 算法的计算有效算法,其中包含实时算法和鲁棒算法,它们能够实现良好的失望保证,并且对于线性奖励函数而言具有稳健性。
Feb, 2020
本文提出了一种算法来解决随机上下文赌博机问题,该问题中特征向量的维数可能很大,但仅有一个小的稀疏特征子集会影响奖励函数,该算法可以在不需要先前了解稀疏度的情况下使用,并在温和条件下,确立了性能方面的紧密后悔界限,同时,我们全面评估了我们提出的算法的性能,并表明即使将正确的稀疏度指数暴露给现有方法,但将其保持对我们算法隐藏,我们的算法也能始终优于现有方法。
Jul, 2020
提出了第一个针对全面适应性攻击的稳健性线性上下文 bandit 算法,其不仅可以抵御回报攻击,还可以抵御袭击环境,提高了对各种流行攻击的稳健性。
Jun, 2021
本文提出了一种用于解决多智能体稀疏背景下的上下文线性赌博问题的新方法,通过使用 Lasso 回归进行维度缩减、回归进行问题解决、结合特定过程和网络结构共享信息,达到降低通信成本、保证最小累计遗憾值的效果,并在合成和真实场景下验证了方法的有效性。
May, 2023
探讨 K-armed bandit 问题下的 noisy reward,提出了一种简单实用的算法(kNN-UCB),并得到了紧密的 top-arm identification 和 sublinear regret 边界,并讨论了该算法的全局 intrisinic dimension 和 ambient dimension 的 regret 边界,同时介绍了对于无限武装情境下 bandit 算法的扩展和实验证明了算法在多种任务上的优越性。
Jan, 2018