- 参数化量子比特态的量子纠缠检测的经典贪婪算法
量子纠缠检测中的多臂赌博机问题探索与机器学习方法应用潜力的研究。
- 利用规范化权重函数改进多臂赌博机的奖励条件策略
通过使用归一化权重函数来通过边缘化奖励构建策略的技术,改进了 reward-conditioned policies 并使其在具有大动作空间和稀疏奖励信号的挑战性多臂赌博问题上表现出优越性能。
- 具有网络干扰的多臂赌博机
通过研究在线干预实验中的干扰问题,我们提出了基于线性回归算法的多臂赌博机策略,以最小化后悔并实现低后悔的任务分配。
- 自适应惊喜内在动机的无监督强化学习
提出了一个基于多臂赌博机问题的代理模型,该模型根据环境的熵条件动态调整目标,从而鼓励在不同熵环境中出现新的行为和学习技能。
- 具有多功能奖励模型的成本效益的在线多 LLM 选择
利用 “C2MAB-V” 实现对多个大型语言模型的选择和使用,实现了性能和成本效益的平衡。
- 面向基于行动者和表格式马尔可夫决策的有原则实用策略梯度
我们考虑用于赌博机和表格马尔可夫决策过程(MDP)的(随机)softmax 策略梯度(PG)方法。最近的研究利用了 PG 目标的平滑性和梯度支配性质来实现对最优策略的收敛,而不需要设置算法参数。为了解决这个问题,我们借鉴了优化文献的思路,在 - 大型语言模型能否进行上下文探索?
现代大型语言模型(LLMs)在强化学习和决策中能否进行探索是我们的研究重点。我们在不进行训练干预的情况下测试现有 LLMs 的本地性能。我们将 LLMs 部署为简单的多臂赌博机环境中的代理,使用完全基于环境描述和交互历史的 LLM 提示。通 - 通过异构行动抹除通道进行多智能体赌博学习
提出了一种新颖的算法,使学习者能够与异构丢失动作信道上的分布式代理并行交互,从而解决了通信约束和延迟等多智能体环境中的问题。
- 强制性探索在赌博问题中的应用
设计一种不使用奖励分布信息的多臂赌博机算法,通过交替应用贪婪规则与强制探索来实现显著的后悔上界,并提供不同强制探索策略下的问题依赖性后悔上界分析方法,适用于不同奖励分布的固定和分段固定设置。
- 利用贝叶斯子集多臂赌博机和 GPT-4 提升人类创造力的学习
通过与 AI 算法的交互,本文考虑如何提升人类的创造性思维,并通过心理学任务和实验证明,人类与 AI 在提示方面表现出类似的益处,并且可以通过模拟参与者的群体进行学习。
- 一种多臂赌博机的随时有效因果推断的实验设计
通过 Mixture Adaptive Design (MAD) 实验设计,与用户选择的多臂赌博算法结合 Bernoulli 设计,能够在几乎任何赌博算法中对平均处理效果 (ATE) 进行连续推论,保证统计有效性和功率,提高 MAB 实验中 - 基于位置的点击模型的强盗学习排序:个性化和均等待遇
提出了第一个通用 MAB 框架来捕捉在线学习排序(ONL2R)和基于位置点击模型的所有关键要素,并开发了基于贪婪和 UCB 算法的统一策略(GreedyRank 和 UCBRank),分别适用于个性化和相等的排序处理,证明了这两个算法在不同 - 多臂赌博机的固定预算真值组合纯探索
在固定预算环境下,我们研究了多臂赌博机的实值组合纯探索问题。我们提出了 Combinatorial Successive Asign(CSA)算法,该算法可以在动作类别的大小与臂的数量成指数关系时,找到最佳动作。我们证明了 CSA 算法的错 - CRIMED: 带有无界随机失效的赌博机遗憾的上下界
在多臂赌博机设置中,我们研究了最小化后悔问题,并引入了具有任意损坏的情况。我们对于某个给定的赌博机分布族,建立了与问题相关的后悔下界,并提出了 CRIMED 算法来实现该下界的精确后悔值,在已知方差的高斯分布赌博机环境下达到了渐近最优。此外 - 通过广义加权平均对上置信界算法进行简单修改
提出了一种新的广义上限置信界 (UCB) 算法 (GWA-UCB1),通过扩展 UCB1 来解决多臂赌博机问题,结合广义加权平均数,提供了一种适用于各种问题设置的有效算法。
- 用于多臂赌博机的实值组合纯探索的汤普森抽样
我们研究了多臂赌博机问题的实值组合纯探索(R-CPE-MAB)问题。我们引入了一种名为广义汤普森采样探索(GenTS-Explore)算法,它是第一个能够在动作集的大小指数级增长时仍然有效的算法。我们还引入了一个新颖的问题相关样本复杂性下界 - 多智能体多臂赌博机中的遗憾下界
在多臂赌博机领域,多智能体多臂赌博机方法已经受到了广泛关注,但对应的遗憾下界的研究相对较少。本文在不同情景下首次全面研究了遗憾下界,并证明了它们的紧密性。当图表现出良好的连通性和奖励是随机分布时,我们证明了实例相关上界的 O(log T)下 - AdaptEx:一个自助式上下文强化学习平台
AdaptEx 是一个自助上下文强化学习平台,利用多臂赌博算法在 Expedia Group 广泛使用,以大规模个性化用户体验。AdaptEx 根据每位访问者的独特上下文选择最优变体,并迅速学习每一次互动,提供了一种强大的解决方案,以改善用 - 关于插值专家和多臂赌博机的研究
研究一种插值两种不同信息观察方式的在线决策问题,称为 $\mathbf {m}$-MAB。施加 $\mathbf {m}$-MAB 的紧凑极小后悔界,并为其纯探索版本 $\mathbf {m}$-BAI 设计了最佳 PAC 算法。本文还将 - ICML局部差分隐私下伯努利奖励的汤普森抽样
本文研究了带本地差分隐私保证的多臂老虎机问题的遗憾最小化问题。作者提出了三种机制,分别为线性,二次和指数机制,并推导了每种机制下 Thompson Sampling 算法的随机遗憾边界。最后,本文通过模拟证明了不同机制在不同隐私预算下的收敛