- 公平多智体社会福利优化的无懊悔学习
在线多智能体 NSW(Nash 社会福利)最大化问题中,我们提出了一种完全回答 NSW 作为目标的无悔公平学习是否可能的算法,并且在不同设置下得到了相应的后悔界限。
- 统计顺序决策的数学原理:浓度、风险意识和随机赌博模型,及其在减肥手术中的应用
本论文研究了统计顺序决策算法在术后患者随访分析中出现的一些数学挑战;通过研究随机赌臂、数字健康建议、风险感知上下文赌臂、以及可解释的机器学习模型,将这些挑战转化为解决方案。
- 智能和适应后验采样算法用于二元选择
我们研究了基于 Thompson Sampling 的有界奖励随机赌博算法。为了解决现有的与高斯先验的 Thompson Sampling 相关的问题相关后悔界限在 T≤288e^64 时是虚无的问题,我们导出了一个更实用的界限,将主要项的 - 带有弗雷歇特 - 类型尾部分布的跟随扰动领导者:对抗性赌博机中的最优性和最佳选择之间的折衷
本文研究了在对抗性和随机的 K 臂赌博机中,随机扰动策略(Follow-the-Perturbed-Leader)的最优性。我们建立了对于扰动实现 O (√KT) 遗憾的充分条件,并展示了随机扰动策略在具有特定尾部分布的情况下实现的最佳两者 - 随机赌博中的滑动遗憾:辨别指数与随机策略
研究单次行为的无悔算法在随机赌博机中的应用,介绍滑动遗憾的概念,并证明随机方法具有最佳的滑动遗憾,而指数策略在索引条件下具有最差的滑动遗憾。
- 一种用于良好手臂识别的实时算法
在固定预算和任一时刻都可请求推荐的情况下,提出了一种适用于随机赌博机中好臂识别问题的 APGAI 采样规则,可以直接用于固定置信度和预算。结果证明自适应策略在检测缺少好臂方面比均匀采样更有效,同时结合停止规则可获得预期采样复杂性的上界。通过 - 一种用于固定置信度和更高效率的 ε- 最优臂识别算法
提出了 EB-TC𝜀,一种新颖的采样规则,可用于随机强盗中的𝜀- 最佳臂识别,可在固定置信度或固定预算识别(不需要事先了解预算)。该规则的样本复杂度的期望上界在固定置信度设置下得到了证明,并说明了在其勘探参数进行自适应调节的情况下其渐近 - 利用好特征表达的生成模型在赌博机和强化学习中的学习
利用 Kiefer-Wolfowitz 定理证明线性特征对于搜索次优行为有重要意义,即使是在高维状态空间中,这使得在随机赌博机和强化学习应用中均能够有效地减少寻优时间和采样复杂度,并探讨了特征结构对样本复杂性和估计误差之间的平衡。
- 具对抗性破坏的随机线性优化
将随机赌徒模型扩展到对抗性破坏模型,并应用于随机线性优化问题,采用 L"owner-John 椭球进行探索,并将时间分割成指数递增的时代以限制破坏的影响,使得算法对于适应性对手所选择的破坏的数量不可知,其遗憾只会在破坏数量线性增加时增加。
- 对抗性污染下的随机赌博机鲁棒性
本文介绍了一种基于随机波段的新型随机抽样模型,该模型可以适应在受到敌对冲击的情况下仍然保持准确性,并且对于包含作弊行为的数据的性能逐渐降低,但依旧维持在一个线性水平。
- MM邻居学习:网络中的随机和对抗性赌博机
本文介绍了一种新颖的决策模型,以多臂老虎机框架为基础分析社交网络中的学习和决策过程。通过观察邻居的行动和得到的回报,个体可以最小化自己的后悔,我们提供了这种情况下的算法,无论是确定性还是对抗性的多臂老虎机模型,这些算法都是最优的(除去对数因 - 一种几乎具有最优伪遗憾的算法,适用于随机和对抗性贝叶斯赌博机
本研究提出了一种算法,能够在对抗式和随机式赌徒问题中实现几乎最优的伪后悔界限,并表明任何在随机式赌徒问题中具有 O (log n) 伪后悔界限的算法都无法对自适应对抗式赌徒问题实现 O (sqrt (n)) 的期望后悔。
- Thompson 采样的先验敏感性
本文深入分析了 Thompson Sampling 算法中对先验分布选择的鲁棒性,发现在选择优先概率质量时,其遗憾上限与先验正判度呈 O (√T/p), 先验负判度呈 O (√(1-p) T), 并利用这些性质提出了一种基于鞅理论的新证明方 - 批次赌博机问题
简要摘要:本文研究小批量策略下随机赌博机问题的后悔,提出一种简单策略并证明合理情况下批量数量很小即可达到极小极大后悔度界限,同时推导得到低转换成本下的最优随机赌博机策略。
- BayesOpt:用于非线性优化、实验设计和贝叶斯概率的贝叶斯优化库
BayesOpt 是一个用于解决非线性优化、随机万字或序列实验设计问题的先进贝叶斯优化方法库。该库十分高效,具备通用的 C、C++、Python、Matlab 和 Octave 接口。
- 利用随机赌博机的侧观察优化
本文提出一种考虑了副观测数据的随机赌博机模型,并基于上界置信度 (UCBs) 提供了高效的算法,用于在社交网络中推荐内容,实现了比传统算法更好的效果。
- X - 武装逼迫算法
本文提出了一种名为 HOO 的基于乐观优化的臂选择算法,可以对一类广义随机 bandit 问题给出更好的遗憾界,在一定条件下,在欧几里得空间内的单位超立方体上,通过 HOO 算法的表现,该算法的增长速率与空间维度无关。