- 最小化 UCB:局部贝叶斯优化中更好的局部搜索策略
本研究中,我们提出了一种新的局部贝叶斯优化算法 MinUCB,通过在 GIBO 中将梯度下降步骤替换为最小化 UCB 的策略来改进了梯度下降方法,证明了在应用高斯过程作为替代物时,后者可以比直接梯度下降更好。此外,我们还通过前瞻策略改进了 - 基于 UCB 驱动的多目标增强学习的效用函数搜索
基于多目标强化学习的分解方法,通过使用多个效用函数将多目标问题分解为单目标问题,采用上限置信区间的方法在学习过程的不同阶段高效搜索最有前景的权重向量,以最大化 resulting Pareto front 的超体积。
- 蒙特卡洛树搜索与 Boltzmann 探索
此研究以蒙特卡洛树搜索方法为基础,介绍了最大熵树搜索 (MENTS) 的局限性,并提出了两种新算法,Boltzmann 树搜索 (BTS) 和 Decaying 熵树搜索 (DENTS),以解决这些局限性,并保留了 Boltzmann 策略 - 上下文多臂赌博机的树集成
我们提出了一种基于树集成的上下文多臂赌博机的新框架,通过整合上界置信度和汤普森采样两种广泛使用的赌博机方法,用于标准和组合设置。通过几项实验研究,我们使用了流行的树集成方法 XGBoost 来证明我们的框架的有效性。与基于神经网络的最先进方 - 合作多智体图形赌博机:UCB 算法和遗憾分析
在这篇论文中,我们将多智能体图赌博问题定义为由 Zhang、Johansson 和 Li [CISS 57,1-6(2023)] 引入的图赌博问题的多智能体扩展。我们提出了一种基于上限置信界(UCB)的学习算法 Multi-G-UCB,并证 - 通过广义加权平均对上置信界算法进行简单修改
提出了一种新的广义上限置信界 (UCB) 算法 (GWA-UCB1),通过扩展 UCB1 来解决多臂赌博机问题,结合广义加权平均数,提供了一种适用于各种问题设置的有效算法。
- REX:AI 代理的快速探索与利用
我们在本文中提出了一种增强的 Rapid Exploration and Exploitation for AI Agents 方法,称为 REX。该方法通过引入额外的奖励层和集成类似于 Upper Confidence Bound (UC - 可证明有效的 UCB 类算法用于学习预测状态表示
该研究提出了适用于预测状态表示(PSRs)的首个 UCB(Upper Confidence Bound)方法,具有计算效率、接近最优策略的最后迭代保证以及保证模型准确性等特点。
- 具有不对称置信区间的预算多臂赌博机
本文研究了随机预算多臂赌博问题,并提出了一种名为 ω-UCB 的新的上置信界(UCB)采样策略,该策略使用了不对称置信区间,并表明该方法具有对数遗憾且在合成和真实设置中始终优于现有策略。
- 量子计算在情节式强化学习中提供指数级的遗憾改善
本文提出了基于量子上界置信区间(UCB)算法框架来解决具有量子 Oracle 的状态演化情况下的 MDP 有限时间尺度下的强化学习问题,并通过实验表明该算法框架较传统算法提高了性能。
- 递归优化等效性下的马尔科夫决策过程遗憾界限
本文提出了一种新的基于表格化马尔可夫决策过程的递归 OCE 的情节式风险敏感强化学习公式,并设计了一个高效的基于值迭代和上限置信度的学习算法,该算法实现了与场景数和动作数的最优依赖关系。
- AAAI分散式随机多人多臂行走赌博机
提出了一种解决多人多臂赌博机问题的分布式算法,利用上置信区间和分布式优化技术,解决了现实世界应用中玩家仅能访问动态局部子集的问题,并获得了接近最优的后悔率。
- AAAI层次专家赌博问题的遗憾分析
本文研究了一种扩展的标准赌博机问题,其中有 R 层专家。多层专家按层选择,只有最后一层的专家才能玩臂。学习策略的目标是在这种分层专家情况下,尽可能减少总遗憾。本文首先分析遗憾总数与层数线性增长的情况。然后,我们专注于所有专家都在进行 Upp - KDD带有臂组图的神经赌博机
提出了一种基于装备组的图模型(Arm Group Graph,简称 AGG),并结合图神经网络(Graph Neural Network,简称 GNN)进行了动态环境下的机器学习决策算法设计,并在多个领域实现感知和动作预测。
- AAAI乐观 Whittle 指数策略:动态赌博机的在线学习
该研究提出了一种基于 Whittle 指数策略的在线学习算法 UCWhittle,使用上限置信度方法学习转移动力学来解决具有未知状态转移的 RMAB 问题,该算法在三个不同领域均表现出比现有在线学习算法更好的性能。
- IJCAI匹配市场中的赌博学习的汤普森抽样
本文针对未知偏好的两侧市场匹配问题,提出了首个 Thompson Sampling 算法的回报分析,证明 TS 算法在实践中优于 ETC 和 UCB 算法。
- AAAI多项式 Logit 上下文强化学习:可证优化与实用性
本研究考虑了基于多项式逻辑回归选择模型的序贯选择问题,提出了基于上界置信度算法的解法,并得到了近似最优的遗憾上界;进一步,我们研究了该模型的极大似然估计量的置信度界,为实际应用提供了理论指导。
- 个性化联邦多臂老虎机
提出了个性化联邦多臂老虎机 (PF-MAB) 的总体框架,研究了一个灵活平衡泛化和个性化的混合老虎机学习问题,并提出了个性化联邦上置信上界 (PF-UCB) 算法,在理论分析和实验方面都取得了良好效果。
- 具有深度表示和浅层探索的神经背景医师
本研究提出了一种基于深度表示学习和 UCB 方法的上下文感知强化学习算法,可以通过最后一层线性层进行探索以达到最小化后悔的效果,在计算效率方面比现有神经上下文感知强化学习算法更具优势。
- 成本补贴的多臂老虎机
本研究考虑了一种新颖的多臂赌博机问题(MAB with cost subsidy),为了优化累积的成本和收益,学习机构必须支付选择的手臂成本,针对这种问题,我们提出了探索 - 开发算法的简单版本并对其进行了广泛的数值模拟,最后建立了任何线上