可复制的赌徒机制设计

Dec, 2023

Replication-proof Bandit Mechanism Design

Seyed Esmaeili, MohammadTaghi Hajiaghayi, Suho Shin

TL;DR设计复制验证的赌博机制，分析 Bayesian 代理参与下的均值奖励，提供单个代理和多个代理情况下的复制验证算法及后悔上界。

Abstract

We study a problem of designing replication-proof bandit mechanisms when agents strategically register or replicate their own arms to maximize their payoff. We consider bayesian agents who are unaware of ex-post

replication-proof bandit mechanisms bayesian agents exploration-then-commit algorithm regret upper bound multi-agent setting

发现论文，激发创造

去中心化协作随机赌博机

本文研究了多臂赌博机问题在网络上的去中心化协作，采用加速一致性过程来计算所有智能体对每个臂的平均奖励，该算法采用上置信区间来决策，能够达到更好的回归界，同时不需要过多的底层网络信息。

Oct, 2018

多智能体多臂赌博决策分布式一致性算法

研究多智能体多臂赌博问题中的决策制定策略，利用贝叶斯变点检测和重启决策协作优化多智能体 UCB 算法的期望组后悔率的理论上限，并在合成数据集和真实数据集上进行数值实验，表明所提出的方法优于现有的算法。

Jun, 2023

拜占庭弹性的分散式多臂赌博机

该研究通过开发一种完全分散的鲁棒上置信界算法，将信息混合步骤与不一致和极端值的截断步骤结合起来，以恢复分散合作多臂赌博中的有效行为，提高正常代理的表现。该算法在遗憾方面不劣于单代理 UCB1 算法，并且所有正常代理的累积遗憾严格优于非合作情况。实验证实了这一框架的优点。

Oct, 2023

合作多智体图形赌博机：UCB 算法和遗憾分析

在这篇论文中，我们将多智能体图赌博问题定义为由 Zhang、Johansson 和 Li [CISS 57，1-6（2023）] 引入的图赌博问题的多智能体扩展。我们提出了一种基于上限置信界（UCB）的学习算法 Multi-G-UCB，并证明其在 T 步内的期望遗憾通过 O (Nlog (T)[sqrt (KT) + DK]) 被界定，其中 D 是图 G 的直径。最后，我们通过与其他方法的比较对算法进行了数值测试。

Jan, 2024

具有异构奖励的分散随机分布的多智能体多臂赌博机

研究了去中心化多智能体多臂赌博问题，使用随机图来优化整个系统的综合悔恨度，引入了新的算法框架，其中包含加权技巧和上置信边界方法，算法具有较好的鲁棒性，并且考虑了图随机性，同时给出了不同命题下的悔恨度的上限。

Jun, 2023

非平稳赌博机问题的置信上限策略

本文考虑了分布保持不变，但在未知时间发生改变的非稳态赌徒问题，研究了两种算法：折扣上限置信区间和滑动窗口上限置信区间，并通过 Hoeffding 不等式得到了后者的上界，对不优的赌博机被玩的次数期望进行了上界估计并证明了存在性突然性改变时的遗憾下界，证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。

May, 2008

分散区块链基于鲁棒型多智能体多臂赌博机

我们研究了一个鲁棒的多代理多臂赌博问题，其中多个客户或参与者分布在完全去中心化的区块链上，可能有些参与者是恶意的。我们通过将区块链中先进的技术和新颖的机制结合到系统中，为诚实参与者设计了最优策略，以有效保证诚实参与者获取的累积奖励。通过遗憾分析，我们首次证明了所提算法在区块链中的优化上的理论保证，并与无恶意参与者的多代理多臂赌博问题以及具纯拜占庭攻击的鲁棒多代理多臂赌博问题保持一致。

Feb, 2024

概率无界对抗下的稳健随机赌博算法

提出抵御恶意攻击的新型样本中位数算法和探索辅助上限置信区间算法，并通过多个仿真和实验表明它们能够在多臂赌博机问题中实现 sublinear regret。

Feb, 2020

基于数据驱动的上界置信度在重尾赌博机上的近优遗憾

本文提出了一种分布无关、数据驱动的上置信界（UCB）算法，结合最近发展的重新抽样中位数法（RMM）方法，对称奖励分布的研究中生成近乎最优的后悔边界，即使是重尾分布。

Jun, 2024

序列多臂赌博机中的奖励样本传输

在该研究中，我们考虑了一个顺序随机多臂赌博问题，在多个回合中，代理与赌博机进行交互。臂的奖励分布在一个回合中保持不变，但在不同回合中可能发生变化。我们提出了一种基于 UCB 算法的方法，用于传输来自先前回合的奖励样本，并改善所有回合中的累积遗憾表现。我们对该算法进行了遗憾分析和实证结果，结果显示与无传输的标准 UCB 算法相比有明显的改进。

Mar, 2024