无范数偏见的线性赌博机
研究了一种新型的K武装强盗问题,介绍了一种针对这一问题的新算法,并展示了在特定条件下可以实现有限的预期累计遗憾,同时提供了依赖于问题的累计遗憾下限,显示出至少在某些特殊情况下,新算法是近乎最优的。
Nov, 2014
该研究提供了敌对强盗算法必须遭受的遗憾的新的下界,并证明了对于最佳臂的总损失或损失的二次变化的上界是接近紧的。此外,研究还证明了两个不可能的结果,即单臂最优和遗憾不能随损失范围的提高而扩展。相比之下,在完全信息设置中这两个结果是可能的。
May, 2016
本文研究了一个约束的上下文线性赌博机问题,提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限,针对多臂赌博机情况提出了高效算法,同时给出了问题的下限和模拟结果。
Jun, 2020
该文章提出了一种简单的模型选择方法,用于解决随机赌博和强化学习问题,并通过平衡算法的候选遗憾边界,以及淘汰违反其候选边界的算法来消除算法,从而证明该方法的总遗憾由最佳候选遗憾边界的一个乘性因子限制。
Dec, 2020
本文探究了广义线性Bandits在非稳态环境中的应用,比如参数漂移等问题,提出了一种新增添的算法,基于动态问题的推断,解决了广义线性Bandits在非稳态环境下表现出的缺陷,拥有了更优秀的性能表现。通过对于动态问题投影过程的修改,我们设计出了一种具有结构性特点的算法。经过实验证明,我们的算法达到了更好的性能表现。
Mar, 2021
我们介绍了多臂赌博问题的一种新颖扩展,它包括一个额外的战略要素:弃权。在这个增强的框架中,智能体不仅在每个时间步骤中被要求选择一个臂,还可以选择在观察之前放弃接受随机瞬时奖励。当选择放弃时,智能体将遭受固定的后悔或获得保证的奖励。在这种增加的复杂性下,我们问是否能够开发出既渐近最优又极小最优算法。通过设计和分析算法,我们肯定地回答了这个问题,使得后悔满足相应的信息论下界。我们的结果为放弃选项的好处提供了有价值的定量洞察,为进一步探索其他具有这种选项的在线决策问题打下了基础。数值结果进一步支持了我们的理论发现。
Feb, 2024
通过受限反馈模型,本研究提供了关于“专家建议问题”的最坏情况后悔度的新的下界和上界,其中下界为O(sqrt(KT ln(N/K))),上界与之相匹配,并改进了现有最佳下界sqrt(KT (ln N) / (ln K))。同时,对于标准反馈模型,本研究提供了一种新的基于实例的上界,该上界取决于专家之间的一致性,并相比之前的结果提供了对数级的改进。
Jun, 2024