无范数偏见的线性赌博机

May, 2022

Norm-Agnostic Linear Bandits

Spencer, Gales, Sunder Sethuraman, Kwang-Sung Jun

TL;DR本文提出了两种不需要先验知识的新算法，一种针对较小的变动武器集，另一种针对固定武器集，其悔恨界仅仅受到次要影响。

Abstract

linear bandits have a wide variety of applications including recommendation systems yet they make one strong assumption: the algorithms must know an upper bound $S$ on the norm of the →

发现论文，激发创造

线性参数化赌博机

本文研究基于多维随机向量臂收益的赌博机问题，证明了在解决特定问题时使用相应的相位策略可以达到最优的累计遗憾和贝叶斯风险，并提出了针对通用问题的近似最优解。

Dec, 2008

随机多臂赌博机的有限遗憾

研究解决在已知最优的选择和最小间隔值时如何制定随机化策略，以解决随机多臂赌博问题中可能发生的后悔问题，并探讨了其下界和最优解等问题。

Feb, 2013

有限臂结构赌博机的有界遗憾

研究了一种新型的K武装强盗问题，介绍了一种针对这一问题的新算法，并展示了在特定条件下可以实现有限的预期累计遗憾，同时提供了依赖于问题的累计遗憾下限，显示出至少在某些特殊情况下，新算法是近乎最优的。

Nov, 2014

对抗性赌博机的改进下界

该研究提供了敌对强盗算法必须遭受的遗憾的新的下界，并证明了对于最佳臂的总损失或损失的二次变化的上界是接近紧的。此外，研究还证明了两个不可能的结果，即单臂最优和遗憾不能随损失范围的提高而扩展。相比之下，在完全信息设置中这两个结果是可能的。

May, 2016

无限臂线性情境赌博机的紧束悔恨界

本文研究线性上下文赌博机，特别是具有更改的无穷动作集的情况下的情况。我们证明了一种悔恨上界，其与以前的下界相匹配。

May, 2019

带线性约束的随机赌博机

本文研究了一个约束的上下文线性赌博机问题，提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限，针对多臂赌博机情况提出了高效算法，同时给出了问题的下限和模拟结果。

Jun, 2020

多臂赌博和强化学习中的模型选择的遗憾界平衡和消除

该文章提出了一种简单的模型选择方法，用于解决随机赌博和强化学习问题，并通过平衡算法的候选遗憾边界，以及淘汰违反其候选边界的算法来消除算法，从而证明该方法的总遗憾由最佳候选遗憾边界的一个乘性因子限制。

Dec, 2020

广义线性赌臂机在参数漂移下的遗憾界

本文探究了广义线性Bandits在非稳态环境中的应用，比如参数漂移等问题，提出了一种新增添的算法，基于动态问题的推断，解决了广义线性Bandits在非稳态环境下表现出的缺陷，拥有了更优秀的性能表现。通过对于动态问题投影过程的修改，我们设计出了一种具有结构性特点的算法。经过实验证明，我们的算法达到了更好的性能表现。

Mar, 2021

具有弃权的多臂赌博机

我们介绍了多臂赌博问题的一种新颖扩展，它包括一个额外的战略要素：弃权。在这个增强的框架中，智能体不仅在每个时间步骤中被要求选择一个臂，还可以选择在观察之前放弃接受随机瞬时奖励。当选择放弃时，智能体将遭受固定的后悔或获得保证的奖励。在这种增加的复杂性下，我们问是否能够开发出既渐近最优又极小最优算法。通过设计和分析算法，我们肯定地回答了这个问题，使得后悔满足相应的信息论下界。我们的结果为放弃选项的好处提供了有价值的定量洞察，为进一步探索其他具有这种选项的在线决策问题打下了基础。数值结果进一步支持了我们的理论发现。

Feb, 2024

带专家建议的强盗问题的改进遗憾界限

通过受限反馈模型，本研究提供了关于“专家建议问题”的最坏情况后悔度的新的下界和上界，其中下界为O(sqrt(KT ln(N/K)))，上界与之相匹配，并改进了现有最佳下界sqrt(KT (ln N) / (ln K))。同时，对于标准反馈模型，本研究提供了一种新的基于实例的上界，该上界取决于专家之间的一致性，并相比之前的结果提供了对数级的改进。

Jun, 2024