未知协同收益游戏中无悔学习
通过多臂赌博机问题和高斯过程来解决在优化一个未知、嘈杂及难以评估的函数的问题。我们在这个问题上得到了遗憾界,建立了高斯过程优化和实验设计之间的联系。通过实验,我们证明了 GP-UCB 可以优于其他启发式高斯过程优化方法。
Dec, 2009
研究连续性赌博机问题下高斯过程与多种学习算法(GP-UCB、GP-TS)的误差性能,通过独立的贝叶斯和频率学派来分析多项式差距,得出了均价核的特殊化,进一步提高了误差性能。
Sep, 2020
提出了新的技术,将 DFG 的技术用于解决内部遗憾和交换遗憾,从而使得多人游戏中的学习动态能够收敛到近似相关均衡,同时分析了 Blum 和 Mansour 算法中的近似最优遗憾保证。
Nov, 2021
研究了采用非参数高斯过程先验的 UCRL 和后验抽样算法的在线学习方法在未知的连续状态和动作的马尔可夫决策过程中最小化后悔的问题,在频率设置下,通过对核函数诱导的函数的再生核希尔伯特空间的真实 MDP 的转移和奖励函数的成员进行变异,研究了这些算法的后悔边界问题,并突出了转移和奖励函数对学习性能的影响。
May, 2018
在复杂拍卖场景中,我们提出了一种在线学习方法,通过利用投标方的效用结构和部分反馈,为拍卖算法提供对最佳固定竞标的遗憾率,这对于行动空间的依赖程度来说比应用通用的贝叶斯智能带宽算法要快指数级收敛,同时又几乎等同于在完全信息环境下所实现的收敛,这些结果是通过分析这一新的基于反馈的在线学习方法实现的。
Nov, 2017
本研究主要探讨了潜在博弈、马尔可夫潜在博弈和 Frank-Wolfe 算法在随机成本和强盗反馈下的应用,提出了一种具有足够探索性和递归梯度估计的变种算法,能证明收敛于纳什均衡并对每个参与者实现亚线性遗憾。该算法同时在潜在博弈中实现了纳什遗憾和 $O (T^{4/5})$ 的遗憾上界,匹配了现有最佳结果,无需额外的投影步骤。通过精确平衡过去样本的重复使用和新样本的探索,我们将结果扩展到了马尔可夫潜在博弈中,将现有最佳纳什遗憾从 $O (T^{5/6})$ 改进至 $O (T^{4/5})$。此外,我们的算法不需要了解游戏的任何信息,如分布误差系数,这提供了更灵活的实际实施。实验结果证实了我们的理论发现,并强调了我们方法的实际有效性。
Apr, 2024
本文考虑带有 Bandit 反馈的序贝叶斯优化问题,采用了允许奖励函数随时间变化的公式。我们使用高斯过程对奖励函数进行建模,并介绍了高斯过程 UCB 算法的两个自然扩展。我们的主要贡献是这些算法的新颖遗憾界,提供了时间跨度和函数变化率之间权衡的明确刻画。我们在合成数据和实际数据上展示了算法的性能,并发现 TV-GP-UCB 的逐渐遗忘效果比 R-GP-UCB “尖锐重置” 更好,而且两种算法都显著优于传统的高斯过程 UCB 算法,因为它将陈旧数据和新数据视为平等。
Jan, 2016