- 差分隐私最佳臂识别
最佳臂识别(BAI)问题在数据敏感应用中得到广泛应用,研究此问题时考虑了固定置信度下的本地和中心模型的差分隐私(DP)要求,并提出了相应的算法,以实现隐私与效用之间的权衡。
- 优化夏普比率:多臂赌博机中的风险调整决策
通过优化强化型夏普比率,我们提出了一种用于多臂赌博机的在线高斯过程算法,该算法克服了传统算法的缺陷,成功降低了风险投资组合管理问题的回报损失。
- 最优二元法用于最佳手臂识别和流体分析
针对最佳臂识别问题,本文提出了一种基于阈值的最优排名算法,通过对强度的函数分配进行采样来识别最佳臂,分析表明该算法在极限情况下是最优的。
- 具有资源约束的最佳臂识别
在资源约束下,通过资源消耗来识别最佳模式的 Best Arm Identification 问题中,我们设计并分析了基于资源分配的逐步减半算法 (SH-RR),它在成功识别最佳模式的概率方面实现了接近最优的非渐进收敛速度;有趣的是,我们在确 - 成本感知的最佳臂识别
该研究针对具有双重对象的最佳臂辨识问题进行了研究。在传统奖励的基础上,每个臂都与成本分布相关联,目标是通过最小的预期成本来辨识出最高奖励的臂。研究提出了一个理论下界和两种算法,以降低计算复杂性和实现近乎最优的性能。通过实验证明了忽视异质性行 - 有限预算下快速学习的最佳臂识别
在大型语言模型中,显著的指导遵循能力引发了对自动学习合适提示的日益关注。本研究通过在提示学习中显式引入有限预算约束,提出了一种统一的框架 TRIPLE(用于提示学习的最佳臂识别),并通过利用聚类和函数逼近的思想对其进行了两种基于嵌入的增强。 - ICLR固定预算差分私有最佳臂辨识
在差分隐私约束下,研究固定预算探索期的线性赌臂问题,通过最大绝对确定性原则构建满足差分隐私约束的策略,得到其错误概率的上限和下限,并展示其与赌臂问题复杂性、亚最优的臂差异和差分隐私参数相关的指数级衰减特性。此外,该研究还提供了独立感兴趣且对 - 上下文固定预算的最佳臂识别:具有策略学习的自适应实验设计
个性化治疗建议、最佳治疗方法鉴定、上下文信息、自适应实验以及策略学习是这篇研究论文的关键词,通过推荐最佳治疗方法的决策策略获得最小的预期简单后悔,同时为政策学习、实验设计和自适应福利最大化提供了新的方法。
- 批处理多臂赌博机问题中的最佳臂识别
最近在许多实际场景中出现了多臂赌博问题,其中由于代理人等待反馈的时间有限,必须对臂进行批量抽样。这些应用包括生物实验和在线营销。当臂的数量很大而批次的数量很小时,问题进一步复杂化。我们考虑了批量多臂赌博问题中的纯探索。我们引入了一个通用的线 - 未知方差的双臂高斯赌博机中局部最优固定预算最佳臂识别
我们提出了一种在自适应实验中估计方差的策略,并展示了在变量未知情况下该策略在渐近情况下是最优的。
- 改进知识梯度算法
改进的知识梯度(iKG)算法通过选择产生在选择最佳臂的概率的一步改进最大的度量,提供了知识梯度(KG)算法的一个修复方案,并且可以被证明是渐近最优的。
- 具有固定置信度的不安定赌博机中的最佳臂标识
在具有有限个臂的不安定多臂赌博问题中,通过分析某个马尔可夫决策过程及其状态 - 行动访问比例,确定最佳臂的策略和相应的期望停止时间,从而在有限的样本数、有限错误概率的条件下达到最佳臂的识别。
- 差分隐私最佳臂识别的复杂性及固定置信度
通过定量隐私成本,确定 BAIR (Best Arm Identification under Differential Privacy) 问题的样本复杂度下界,提出了 AdaP-TT 算法作为 BAIR 的隐私 - 效用折中方案,并通过实 - 协方差自适应最佳臂识别
该研究介绍了一种更加灵活的多臂老虎机模型,旨在通过估算臂间协方差来更高效地识别最佳臂,并利用新算法提供了实现此目标的理论保证和数值模拟。
- 基于子人群公平约束的最佳臂识别
本文研究了在子人群中具有公平性约束的最佳臂识别问题,提出了算法并证明了样本复杂度的下限和算法一致。
- MM量子赌徒
提出一种基于量子振幅放大的算法解决了量子版本的最优臂识别问题,并在所有情况下证明了它比经典算法快两次达到最优解。
- AAAI一种用于最大内积搜索的贝叶斯赌博算法
本研究提出了第一种无需任何预处理的近似 MIPS 算法,并允许用户控制和限制结果的次优性,该方法将 MIPS 作为最佳 Arm 识别问题,并引入了一种新的赌博问题设置来充分利用 MIPS 的特殊结构,在合成和现实世界数据集上表现优于现有方法 - 将后悔最小化和最佳臂识别融合,应用于 A/B 测试
本文提出了一种在线学习算法,结合了最佳手臂识别和成本最小化两个目标,同时在保持遗憾最小化和最佳手臂识别方面具有保证,并将这些结果扩展到实践者面临的非独立同分布情况,旨在通过提供应用程序来权衡成本和决策时间。
- 污染老虎机的最佳臂识别
本文在稳健统计学的背景下研究主动学习。具体而言,我们为受到污染的赌臂问题提出了一个变体,其中每个臂的拉动具有生成任意污染分布样本的概率 ε,而不是真正的基础分布。我们开发了紧凑的、非渐进的样本复杂度界限来高概率地估算受到污染的样本的前两个鲁 - 通过在线重要性采样识别最佳干预措施
通过在无环因果有向图中识别最佳软干预措施以最大化目标节点的预期价值,我们提出了一个最佳臂识别问题;本研究提供了该问题的第一篇基于不同操作开销的损失限制的误差和简单后悔边界的信息泄漏。经验性结果表明,我们的算法优于现有技术。