自适应双探索权衡策略用于异常检测
本文提出了基于 Implicit eXploration 的损失估计策略,可以在不需要不必要的探索成分的情况下,实现高概率遗憾界,取得了多臂赌博问题方面的改进结果。
Jun, 2015
提出了一种名为模拟器的新技术,用于分析自适应取样,该方法通过考虑已收集的有限数据量不足以区分好的采样策略和不好的采样策略的难度,从而超越了现有方法,使我们能够匹配Fano和change-of-measure技术的优点,并应用于固定置信度的纯探索设置中的多臂赌博机问题,展现出系统中各个部分的现象。
Feb, 2017
REMIX是第一个解决交互式环境下异常检测问题的系统,它使用新颖的混合整数规划(MIP)公式,在规定时间内自动选择和执行多样化的异常检测器,包括数据处理算法和特征选择,为分析人员提供两种不同的结果消费方式,即透视图和集成异常检测器。
May, 2017
提出了一种新型武器-机会主义强盗,研究了不同环境条件下拉取次优武器的损失,提出了一种自适应上置信界算法(AdaUCB)来平衡开采-探索的权衡,证明了AdaUCB的性能优于传统算法,并在合成数据和真实世界的实验结果中得到了验证。
Sep, 2017
本文研究自适应地从 K 个分布(臂)中抽样,以确定任意两个相邻均值之间的最大差距,即最大间隙赌博机问题。作者提出消除与UCB风格的算法,并证明了它们是极小化的最优解。实验结果表明,UCB风格的算法需要的样本数量比非自适应抽样少6-8倍。
Jun, 2019
本文研究在多臂老虎机中检测异常臂的问题,并提出了一个名为GOLD的新型拉动算法,通过实时构建邻域图形的方式实现对可能存在的异常臂的鲁棒识别,实验结果表明该算法相对于最先进的技术可平均节省83%的探索成本,并在准确性上达到了98%的表现。
Jul, 2020
本文研究的是稳健异常臂识别问题,旨在通过对其奖励分布进行自适应抽样以识别奖励期望值与大多数值存在明显差异的臂,采用中位数和中位数绝对偏差计算异常值阈值是选择与平均值和标准偏差相比更为稳健的阈值方法,我们建议两个Δ-PAC算法用于ROAI,其包括第一种基于UCB的异常检测算法,并导出了它们的样本复杂度的上限。我们还证明了最坏情况下的下限,表明我们的上限通常无法改进。实验结果表明,与最先进的方法相比,我们的算法既稳健又更加高效。
Sep, 2020
对异常值和离群值对模型估计和数据处理的影响进行了全面的调查,包括对异常检测领域的综述和研究方法进行了研究,揭示了相关主题和方法的发展以及学者在这一领域的写作实践。
Dec, 2023
在这篇论文中,我们研究了一个代理在在线学习阶段利用离线数据来提高每个动作奖励分布估计的困境。我们从因果结构的角度出发,将这个问题分为混淆偏差和选择偏差,并从有偏观测数据中提取鲁棒的因果边界。这些边界包含了真实的平均奖励,并能有效地指导代理学习几乎最优的决策策略。同时,我们进行了上下文和非上下文赌博机环境下的遗憾分析,并展示了先前的因果边界可以帮助持续减少渐近遗憾。
Dec, 2023