行动消失下的弱监督学习

Jun, 2024

Learning for Bandits under Action Erasures

Osama Hanna, Merve Karakas, Lin F. Yang, Christina Fragouli

TL;DR我们提出了一种方案，可以使任何多臂赌博算法在作用擦除通道下表现出与无擦除情况下不差于一阶的最坏后悔率；此方案基于一个新颖的多臂赌博设置，在该设置中，学习器需要通过擦除通道向分布式代理传达动作信息，而通过外部传感器直接收集动作回报。

Abstract

We consider a novel multi-arm bandit (MAB) setup, where a learner needs to communicate the actions to distributed agents over erasure channels, while the rewards for the actions are directly available to the lear

multi-arm bandit erasure channels mab algorithm action erasures worst-case regret

发现论文，激发创造

通过异构行动抹除通道进行多智能体赌博学习

提出了一种新颖的算法，使学习者能够与异构丢失动作信道上的分布式代理并行交互，从而解决了通信约束和延迟等多智能体环境中的问题。

Dec, 2023

多智能体多臂赌博机中的社交学习

介绍了一个分布式算法来解决多臂赌博机问题，通过异步交换较少的比特数，在不进行样本交换的情况下，仅通过传递臂 ID 来维护代理之间的合作；文中提出的算法可以将每个代理的后悔最小化，并将通信复杂度降至 $O (logT)$，与不进行合作的方案相比，本算法能够显著降低每个代理的后悔。

Oct, 2019

多智能体赌博机的闲语插入 - 排除算法

该论文研究了多智能体多臂赌博机模型下的协作问题，提出了两个算法，通过交换信息来降低每个智能体的累计损失，理论证明通过最小的信息交互次数可以在不增加损失上极大地提高算法性能。

Jan, 2020

使用少量通信解决多臂赌博机问题

本研究通过优化分布式算法中奖励的传递来解决通信瓶颈问题，并提出了一种新的基于泛化奖励量化算法 QuBan 的通信高效的多臂老虎机算法，该算法只需要每次发送 3 位比特就可以保持与传统算法相同的后悔限制。

Nov, 2021

多臂赌博机的宽容遗憾

本文提出了一种忽略一定程度下最优性差距的 Bandit 算法，并以其为基础，设计优化算法 Thompson Sampling (ε-TS)。研究结果表明，该算法能够在一定程度上避免过度探索问题，并在保证性能的前提下，提高计算效率。

Aug, 2020

不确定性下的奖励最大化：利用网络的相关观察

设计考虑了存在网络结构情况下对多臂赌博问题的解决方案，提出两个基于网络结构的策略，并在真实社交网络和路由网络的数据上测试，证明相比于现有策略获得了更多的好处。

Apr, 2017

可证明高效的对抗性不安静多臂赌博机强化学习：未知转换和赌博机反馈

通过使用一种创新的偏置对抗性奖励估计器和低复杂度指标策略，我们开发了一种新颖的强化学习算法来解决具有未知转换函数和敌对奖励的周期性不安定性多臂赌博机问题，以最大化总的敌对奖励，并确保在每个决策阶段满足瞬时激活约束条件，我们的算法在我们所考虑的具有挑战性的设置中保证了约根号 T 的遗憾界，这在我们的所知范围内是首次实现的。

May, 2024

基于图的赌博机学习

本论文研究了一种称为图赌博机的多臂赌博机扩展问题，提出了一种能够利用乐观原则平衡长期探索与开发的学习算法 G-UCB，并证明其能够达到理论最优的遗憾界，数值实验结果表明该算法优于其他基准算法。

Sep, 2022

无噪音奖励和无通信的最佳合作多人学习赌博机

合作多人奖励学习中，通信受限的策略选择问题；通过使用上界和下界置信度算法，解决信息不对称导致的动作选择问题，并达到对数和平方根极限遗憾值。

Nov, 2023

多人多臂赌博机的分布式学习

本文研究了一种分散式多臂搏击器的问题，提出了一种达到最优秩序并确保公平性的分散式政策，并证明了其总遗憾增长速率的下限，这个问题在认知无线电网络，多通道通信系统，多智能体系统，网络搜索和广告以及社交网络等领域有潜在的应用。

Oct, 2009