本文提出了一种基于乐观的镜像下降的无悔策略算法,可以在非稳态环境下实现 O (sqrt (T)) 的后悔度,并可在变分稳定游戏中收敛到纳什均衡。
Apr, 2021
这篇研究论文提出了一个基于连续空间的成本函数的对决 Bandit 问题解决方案,介绍了一种随机镜像下降算法,并表明该算法在成本函数的强凸和平滑假设下实现了 O (sqrt (T log T)) 的遗憾界。此外,它还探讨了对决 Bandit 问题遗憾最小化与成本函数凸优化的等价性。
Nov, 2017
本研究主要探讨了潜在博弈、马尔可夫潜在博弈和 Frank-Wolfe 算法在随机成本和强盗反馈下的应用,提出了一种具有足够探索性和递归梯度估计的变种算法,能证明收敛于纳什均衡并对每个参与者实现亚线性遗憾。该算法同时在潜在博弈中实现了纳什遗憾和 $O (T^{4/5})$ 的遗憾上界,匹配了现有最佳结果,无需额外的投影步骤。通过精确平衡过去样本的重复使用和新样本的探索,我们将结果扩展到了马尔可夫潜在博弈中,将现有最佳纳什遗憾从 $O (T^{5/6})$ 改进至 $O (T^{4/5})$。此外,我们的算法不需要了解游戏的任何信息,如分布误差系数,这提供了更灵活的实际实施。实验结果证实了我们的理论发现,并强调了我们方法的实际有效性。
Apr, 2024
通过引入一种随机学习过程 - 阻尼梯度逼近,我们在本文中为具有连续行动集的博弈设计了一种学习过程,它是基于收益的,因此不需要玩家有策略上的认知或关于游戏的知识,我们还证明了在大部分博弈中玩家可以收敛于 Nash 均衡点。
Jun, 2018
本文研究了一种名为 “部分信息” 的在线学习模型,提出了多种算法,通过信息反馈结构的组合特性,给出了紧密的遗憾界限。
Sep, 2014
本文研究了控制具有对抗扰动的线性动态系统的问题,其中控制器仅有可用的标量损失反馈,且损失函数本身未知。针对这个问题,无论系统是否知道,我们都提出了一个有效的次线性后悔算法,并提出了一种用于带有记忆的损失函数的通用带贝叶斯优化算法,这可能是独立学科领域的一个难点。
Aug, 2020
本文研究具有端到端赌博反馈的多阶段系统,提出了分布式在线学习算法,以在对抗环境中实现次线性遗憾。
本文提出了一种 black-box 的方法来学习在非稳态多智能体系统中的均衡,可以适用于广泛的问题,如一般和游戏、潜在游戏和马尔科夫游戏,并在测试次数和非稳态程度的度量下,取得了可接受的性能表现。
Jun, 2023
本文提出了一种利用 Gaussian processes 将对手行为的观察信息和不完全信息反馈结合起来的算法 GP-MW,通过运行 MW 方法获得最佳效果,同时实验室演示了在交通路由和电影推荐等实际应用中其性能比现有算法更优秀。
Sep, 2019
合作多人奖励学习中,通信受限的策略选择问题;通过使用上界和下界置信度算法,解决信息不对称导致的动作选择问题,并达到对数和平方根极限遗憾值。
Nov, 2023