未知协同收益游戏中无悔学习

Sep, 2019

No-Regret Learning in Unknown Games with Correlated Payoffs

Pier Giuseppe Sessa, Ilija Bogunovic, Maryam Kamgarpour, Andreas Krause

TL;DR本文提出了一种利用 Gaussian processes 将对手行为的观察信息和不完全信息反馈结合起来的算法 GP-MW，通过运行 MW 方法获得最佳效果，同时实验室演示了在交通路由和电影推荐等实际应用中其性能比现有算法更优秀。

Abstract

We consider the problem of learning to play a repeated multi-agent game with an unknown reward function. Single player online learning algorithms attain strong →

multi-agent game online learning bandit feedback gaussian processes regret bounds

发现论文，激发创造

赌赢型高斯过程优化：无悔与实验设计

通过多臂赌博机问题和高斯过程来解决在优化一个未知、嘈杂及难以评估的函数的问题。我们在这个问题上得到了遗憾界，建立了高斯过程优化和实验设计之间的联系。通过实验，我们证明了 GP-UCB 可以优于其他启发式高斯过程优化方法。

Dec, 2009

具有图结构反馈的非随机多臂赌博机

本文研究了一种名为 “部分信息” 的在线学习模型，提出了多种算法，通过信息反馈结构的组合特性，给出了紧密的遗憾界限。

Sep, 2014

高斯过程赌博中的信息增益与遗憾界限

研究连续性赌博机问题下高斯过程与多种学习算法（GP-UCB、GP-TS）的误差性能，通过独立的贝叶斯和频率学派来分析多项式差距，得出了均价核的特殊化，进一步提高了误差性能。

Sep, 2020

高斯回报与侧面观测的在线学习

本文考虑了一个带有高斯回报和信息反馈的序贯学习问题，并提供了非渐近的问题相关下界和算法来实现这些下界。

Oct, 2015

多人零和游戏中相关均衡的几乎最优无悔学习

提出了新的技术，将 DFG 的技术用于解决内部遗憾和交换遗憾，从而使得多人游戏中的学习动态能够收敛到近似相关均衡，同时分析了 Blum 和 Mansour 算法中的近似最优遗憾保证。

Nov, 2021

未知马尔可夫博弈中的在线学习

本文研究未知马尔可夫博弈的在线学习问题以及提出了一种算法，实现了与后记中的最佳响应之间亚线性的最小化值的竞争。

Oct, 2020

核化马尔科夫决策过程中的在线学习

研究了采用非参数高斯过程先验的 UCRL 和后验抽样算法的在线学习方法在未知的连续状态和动作的马尔可夫决策过程中最小化后悔的问题，在频率设置下，通过对核函数诱导的函数的再生核希尔伯特空间的真实 MDP 的转移和奖励函数的成员进行变异，研究了这些算法的后悔边界问题，并突出了转移和奖励函数对学习性能的影响。

May, 2018

不知道自己价值的情况下学习投标

在复杂拍卖场景中，我们提出了一种在线学习方法，通过利用投标方的效用结构和部分反馈，为拍卖算法提供对最佳固定竞标的遗憾率，这对于行动空间的依赖程度来说比应用通用的贝叶斯智能带宽算法要快指数级收敛，同时又几乎等同于在完全信息环境下所实现的收敛，这些结果是通过分析这一新的基于反馈的在线学习方法实现的。

Nov, 2017

（马尔可夫）潜力博弈中的纳什均衡收敛和无悔保证

本研究主要探讨了潜在博弈、马尔可夫潜在博弈和 Frank-Wolfe 算法在随机成本和强盗反馈下的应用，提出了一种具有足够探索性和递归梯度估计的变种算法，能证明收敛于纳什均衡并对每个参与者实现亚线性遗憾。该算法同时在潜在博弈中实现了纳什遗憾和 $O (T^{4/5})$ 的遗憾上界，匹配了现有最佳结果，无需额外的投影步骤。通过精确平衡过去样本的重复使用和新样本的探索，我们将结果扩展到了马尔可夫潜在博弈中，将现有最佳纳什遗憾从 $O (T^{5/6})$ 改进至 $O (T^{4/5})$。此外，我们的算法不需要了解游戏的任何信息，如分布误差系数，这提供了更灵活的实际实施。实验结果证实了我们的理论发现，并强调了我们方法的实际有效性。

Apr, 2024

时变高斯过程贝叶斯优化

本文考虑带有 Bandit 反馈的序贝叶斯优化问题，采用了允许奖励函数随时间变化的公式。我们使用高斯过程对奖励函数进行建模，并介绍了高斯过程 UCB 算法的两个自然扩展。我们的主要贡献是这些算法的新颖遗憾界，提供了时间跨度和函数变化率之间权衡的明确刻画。我们在合成数据和实际数据上展示了算法的性能，并发现 TV-GP-UCB 的逐渐遗忘效果比 R-GP-UCB “尖锐重置” 更好，而且两种算法都显著优于传统的高斯过程 UCB 算法，因为它将陈旧数据和新数据视为平等。

Jan, 2016