连续空间自适应传感器布置

ICMLMay, 2019

Adaptive Sensor Placement for Continuous Spaces

James A Grant, Alexis Boukouvalas, Ryan-Rhys Griffiths, David S Leslie, Sattar Vakili...

TL;DR本文提出了一种新的传感器放置问题的建模方法，在连续型赌臂问题框架下通过 Thompson sampling、Bayesian 直方图等方法进行求解，并使用模拟实验验证了本方法与其他竞争算法相比具有更低、更稳定的贝叶斯遗憾值。

Abstract

We consider the problem of adaptively placing sensors along an interval to detect stochastically-generated events. We present a new formulation of the problem as a continuum-armed bandit problem with feedback in the form of partial observations of realisations of an inhomogeneous

sensor placement continuum-armed bandit thompson sampling bayesian histograms poisson process

发现论文，激发创造

复杂环境中高效稳健的传感器布置

在复杂环境中，我们解决了高效和无障碍监视或通信的问题，通过使用最少数量的传感器覆盖环境，并考虑对传感器故障或对抗性攻击具有鲁棒性的解决方案。我们提出了一种贪婪算法来实现多覆盖约束的最小传感器集设计目标，并探索了使用深度学习技术加速贪婪算法中目标函数的评估。神经网络的训练揭示了数据的几何特性显著影响网络性能，特别是在最后阶段。通过考虑这些特性，我们讨论了使用贪婪算法和 ϵ- 贪婪算法生成数据的差异及其对网络的鲁棒性的影响。

Sep, 2023

辅助生活环境中传感器位置优化的灰箱贝叶斯优化

基于灰盒贝叶斯优化和仿真评估，我们提出了一种新颖的、样本高效的方法，在任意室内空间中找到高质量的传感器布置，用于可靠的跌倒检测、室内定位和活动识别。通过捕捉关于活动空间分布的专业知识，并将其纳入到贝叶斯优化的迭代选择查询点过程中，考虑了两个仿真室内环境和包含人类活动和传感器触发的真实数据集，我们展示了相对于现有的黑盒优化技术，我们提出的方法在识别高质量传感器布置方面表现更好，在 F1 得分方面实现了准确的活动识别，同时还需要更少的昂贵函数查询次数（平均减少了 51.3%）。

Sep, 2023

基于置信区间和不安定多臂赌博模型的感知策略

在认知无线电中，提出了一种对于具有不同但未知奖励分布的多臂赌博问题的感知策略。该策略是一个集中协调的索引策略，其中频带的索引由一个样本均值项和一个置信项组成，使得子优频段之间连续感知的时间间隔成指数增长，导致弱后悔值对数增长。仿真结果表明，该策略优于文献中的其他类似方法。

Nov, 2012

具有平滑遗憾的情境臂控算法：连续行动空间高效学习

提出了一种平滑遗憾函数的背景自适应算法，可用于大量或连续动作空间下的通用背景自适应问题，并能适应各种光滑度级别的问题，取得了先前优化遗憾函数的最优性保证。

Jul, 2022

具有连续动作的上下文臂机：平滑、缩放和自适应

研究了一个抽象策略类和连续动作空间下的情境赌博学习，得到了与平滑策略类竞争以及要求标准 Lipschitz 条件的两个不同的遗憾界限。同时，我们研究了适应未知平滑参数的问题，建立了可适应性的代价，并推导出需要额外信息的最优自适应算法。

Feb, 2019

自适应树形赌博机

通过将问题转化为 tree-armed bandits 并提供新结果，我们描述了一种适用于无穷多个多项式极大值的任何连续奖励函数的噪声全局优化和连续臂赌博算法，并在不需要先前信息的情况下实现了臂赌博的平方根遗憾和优化的反平方根误差，并证明了能够自适应地组合多个树以最小化遗憾，并且在缩放维度方面提供了接近匹配的较低界。

Feb, 2013

高斯过程优化中汤普森采样自适应收敛速率

本文考虑了在连续域上全局优化函数的问题，采用高斯过程方法将问题转化为连续赌臂机问题，并证明了在 Thompson Sampling 方法下，其顺序点收敛到全局最优解，且具有自适应收敛速度。

May, 2017

核化多臂赌博机

本文提出了两种基于高斯过程的算法 - 改进的 GP-UCB（IGP-UCB）和 GP-Thomson 采样（GP-TS），并给出了相应的遗憾边界，在连续的臂集上解决了随机赌徒问题。当期望奖励函数属于复制核希尔伯特空间（RKHS）时，边界成立。在实验评估和对合成和真实世界环境中现有算法的比较中，突出了所提出策略的优势。

Apr, 2017

自适应概率信赖约束下的连续高维信念空间规划

研究了基于信念空间规划的在线决策问题，在信息收集等场景下，介绍了一种自适应的方法来寻求最大可行回报，应用这种方法可以在保证准确率的前提下显著加速在线决策过程，并进行了大量现实模拟来验证此方法的优越性。

Feb, 2023

使用区域感知的稀疏信号主动搜索

该论文提出了一种基于信息增益的算法，使用包括单点在内的矩形区域的噪声平均值来主动收集数据来搜索稀疏信号，并在 1D 中对其进行分析，展示了其与其他算法的较高效率表现，并使用卫星图像数据和高维中的搜索问题证明了其实际表现。

Dec, 2016