线性赌臂机器人的纳什后悔保证
该研究探讨了多人随机多臂赌博问题,其中玩家不能相互通信,且如果两个或两个以上的玩家拉动同一臂,就会发生碰撞并且涉及到的玩家将不会收到奖励,在此研究中,作者提出了两个反馈模型,即一种可以观察到碰撞是否发生和一种更难的模型,即没有碰撞信息。作者提出了一个算法可以实现对于后者的对数后悔度,以及一个不依赖于平均数之间差距的平方根后悔度型算法。对于前一模型,作者给出了第一个不依赖于差距的深度后悔度。基于这些想法,作者还提出了一种在随机反~协调博弈中快速达成近似纳什均衡的算法。
Aug, 2018
本文介绍了一个安全的线性随机挑战模型,其中学习器在每一阶段都需要选择一个预期奖励不小于预先确定的(安全)阈值的臂,以高概率。我们假设学习器最初掌握的是一个已知为安全但不一定最优的臂的知识。基于此假设,介绍了一种学习算法,它将已知的安全臂与探索性臂系统地结合起来,以便随时间安全地扩展安全臂集,同时促进后续阶段的安全贪婪利用。除了确保在每个播放阶段满足安全约束之外,所提出的算法还表现出一种预期的遗憾,在播放T个阶段后不超过O(sqrt(T)log(T))
Nov, 2019
本文研究了一个约束的上下文线性赌博机问题,提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限,针对多臂赌博机情况提出了高效算法,同时给出了问题的下限和模拟结果。
Jun, 2020
该论文提出了一种基于数据驱动技术的算法,利用不确定椭球的几何性质追踪算法的习得性能,在不同的问题实例上实现实例相关的频率遗憾边界,从而实现算法实例纠错,并在保留基础算法大部分优良性质的同时,达到最小化讽刺性遗憾代价。
Jun, 2023
通过利用特定问题设置的几何性质,我们为分离良好的问题实例和有限星凸集的行动集提供了改进的遗憾保证。此外,我们提出了一种新的算法,该算法在选择问题参数时自适应,并且至少与现有算法具有相同的遗憾保证。最后,我们引入了安全线性贝叶斯设定的一个概括,其中约束是凸的,并通过一种基于凸分析的方法利用我们的算法和分析。模拟结果显示在各种随机抽样的设置中相对于现有算法的性能有所提升。
Aug, 2023
本研究主要探讨了潜在博弈、马尔可夫潜在博弈和Frank-Wolfe算法在随机成本和强盗反馈下的应用,提出了一种具有足够探索性和递归梯度估计的变种算法,能证明收敛于纳什均衡并对每个参与者实现亚线性遗憾。该算法同时在潜在博弈中实现了纳什遗憾和 $O(T^{4/5})$ 的遗憾上界,匹配了现有最佳结果,无需额外的投影步骤。通过精确平衡过去样本的重复使用和新样本的探索,我们将结果扩展到了马尔可夫潜在博弈中,将现有最佳纳什遗憾从 $O(T^{5/6})$ 改进至 $O(T^{4/5})$。此外,我们的算法不需要了解游戏的任何信息,如分布误差系数,这提供了更灵活的实际实施。实验结果证实了我们的理论发现,并强调了我们方法的实际有效性。
Apr, 2024
在线多智能体NSW(Nash社会福利)最大化问题中,我们提出了一种完全回答NSW作为目标的无悔公平学习是否可能的算法,并且在不同设置下得到了相应的后悔界限。
May, 2024