增强上下文的观测多臂赌博机在不确定语义数据下的机器人探索

Dec, 2023

增强上下文的观测多臂赌博机在不确定语义数据下的机器人探索

Observation-Augmented Contextual Multi-Armed Bandits for Robotic Exploration with Uncertain Semantic Data

Shohei Wakayama, Nisar Ahmed

TL;DR对于不确定性下的机器人决策，必须谨慎考虑可利用选项的开发和探索之间的平衡。本研究介绍了一种新的上下文多臂赌博机变体，称为观察增强型 CMABs（OA-CMABs），其中决策代理可以利用来自外部信息源的额外结果观察。我们提出了一种基于概率数据验证概念的 OA-CMABs 鲁棒贝叶斯推理过程，用于处理 OA-CMABs 中的复杂混合模型参数先验和语义数据源的混合观察可能性，以及推理中的错误观察和非高斯推理。通过在空间探索的模拟异步搜索站点选择问题上演示，结果表明即使外部信息源提供不正确的观察，也可以在广泛的实验条件下实现高效的决策和鲁棒的参数推理。

Abstract

For robotic decision-making under uncertainty, the balance between exploitation and exploration of available options must be carefully taken into account. In this study, we introduce a new variant of contextual m

robotic decision-making exploration contextual multi-armed bandits observation-augmented cmabs probabilistic data validation

发现论文，激发创造

因果抽象多臂赌博机

将传输学习应用于因果抽象多臂赌博机，研究算法学习和后悔度，以解决在线广告相关的现实场景。

Apr, 2024

应用于逐步强化学习和其他领域的组合多元多臂赌博机

引入一种新的组合多臂赌博梳理 (CMAB) 框架，具有多维和概率触发的臂 (CMAB-MT)，其中每个臂的结果是一个 d 维多维随机变量，反馈遵循普通臂触发过程。

Jun, 2024

具有混淆偏差和缺失观察数据的情境赌博政策学习的统一框架

研究离线情境下的由于未观测某些条件变量和数据缺失而引起的偏差和低效问题，提出了一种名为 CAP 的新算法，在数据的基础上形成奖励函数、建立置信区间，并通过悲观主义的方式贪心地采取行动来学习最优策略。

Mar, 2023

组合多臂老虎机及其对概率触发臂的扩展

该研究提出了一种通用的组合多臂赌博问题框架，将未知分布的基础臂组成超级臂进行玩耍，进一步探讨了更多可能基于已激发臂的结果触发概率的扩展，旨在通过在线学习算法实现最小化（α，β）- 逼近遗憾。

Jul, 2014

激励预算有限众包感知的海量未知工作者：从离线和在线的角度

通过在上下文空间中进行勘探 - 利用权衡的创新分割方法，我们提出了离线和在线版本的基于上下文感知的组合多臂赌博机激励机制，以在有限的预算下有效激励大规模未知的工作者，并通过严格的理论分析和实验验证了其有效性。

Sep, 2023

具上下文的组合赌博机、概率挑战的手臂

本文针对情境组合赌博问题，提出了一种具有触发概率和方差自适应的算法，并给出了相应的遗憾界。在合成和真实世界数据集上的实验结果表明算法的优越性。

Mar, 2023

带有主导目标的多目标上下文多臂赌博机

本文提出了一种新的具有两个目标的多目标情境多臂赌博问题，并通过引入奖励向量及其依赖于上下文的分配来解决问题；提出了基于 Pareto 的指标的 MOC-MAB 算法，证明了其对于二维和 Pareto 的悔恨度都是次线性的，并在合成和实际数据集上与其他最先进的方法进行了比较。

Aug, 2017

多臂赌博机中的分布式合作决策

我们研究了在分布式协同决策中探索和利用的权衡在多臂赌博机问题的背景下。对于分布式协同 MAB 问题，我们设计了合作 UCB 算法，该算法包括两个交错的分布式过程:（i）运行共识算法来估计回报，以及（ii）基于上置信区间的启发式选择臂。我们进行了严格的合作 UCB 算法性能分析，并描述了通信图结构对群体决策性能的影响。

Dec, 2015

基于贝叶斯方法的在线学习对于上下文不安定赌博算法的应用于公共卫生

基于贝叶斯学习和汤普森抽样的上下文多臂赌博机在线强化学习方法可以高效建模复杂的上下文相关和非固定的公共卫生干预项目中的资源分配，具有较高的性能表现。

Feb, 2024

多任务学习用于情境赌博机

本文提出了一个基于上限置信区间的多任务学习算法框架，用于处理具有高任务相似性的上下文型臂带问题，并揭示了此算法在数据中高任务相似性的优势。

May, 2017