介绍一种基于自适应聚类探索 - 利用 (“赌徒”) 策略的内容推荐算法,提供标准随机噪声环境下的尖锐遗憾分析,证明其伸缩性属性并在一些人工和实际数据集上证明其有效性。实验结果显示,在赌徒问题上,预测性能显著优于现有技术方法。
Jan, 2014
本文提出一种将算法选择表示为部分信息的赌博问题的简单框架,并将现有的求解器适应于该游戏,证明了其期望遗憾的边界,该算法选择技术的也适用于此。
Jul, 2008
通过自适应质量控制的简单模型,我们解决了多项选择任务中的 Bandit 调查问题,提出了几种算法,并通过分析和模拟支持了我们的方法。
Feb, 2013
本文基于组合多臂赌博机,考虑了测试成本,提供了一种新的成本高效的在线决策框架,并通过后验抽样或 BayesUCB 进行探索。我们对该框架进行了严格的理论分析,并提供了多个实验结果,证明了它在实际问题中的适用性。
Aug, 2023
通过一系列大规模的生产推荐系统实验和深入的分析,我们展示了我们的强化学习代理设计如何提高生产推荐系统的个性化,在一定程度上解决了多任务扩展性和 A/B 测试等瓶颈,并给出了一套测量用户探索效率的新指标设计。
Apr, 2023
利用树搜索和强化学习模型,提高蛋白质工程过程的效率,并在实验中展示了其样本高效和小突变数量下找到顶级设计的能力。
Jan, 2024
本文旨在研究敌对攻击策略对多臂赌博算法的影响,并提供了离线攻击和在线攻击的策略,展示了潜在的安全威胁。
May, 2019
本文介绍了一种智能辅导系统的方法,该系统根据学生特定的时间和动机资源,自适应地个性化地最大化学习活动序列,以提高学生的技能,利用了内在动机学习的最新模型,并运用多臂老虎机技术进行优化,同时基于专家知识来加速探索初始启动
Oct, 2013
我们引入了一种新颖的方法来选择随机梯度下降(SGD)训练中的批量,利用组合赌博算法。我们的方法主要关注在现实世界数据集中普遍存在的标签噪声的学习过程优化。对 CIFAR-10 数据集的实验评估表明,我们的方法在各种标签污染程度下始终优于现有方法。重要的是,我们在不引入常见辅助神经网络模型的计算开销的情况下实现了这种卓越性能。这项工作在计算效率和模型功效之间达到了平衡,为复杂机器学习应用提供了可扩展的解决方案。
Oct, 2023
本研究提出了一种新颖算法 Hyperband,通过自适应资源分配和提前终止实现了超参数优化的加速。该算法在一系列超参数优化问题中比流行的贝叶斯优化方法提供了一个数量级以上的加速。
Mar, 2016