使用基于 Bandit 的方法学习鲁棒的搜索策略

AAAIMay, 2018

使用基于 Bandit 的方法学习鲁棒的搜索策略

Learning Robust Search Strategies Using a Bandit-Based Approach

Wei Xia, Roland H. C. Yap

TL;DR通过采用基于赌博机的学习技术来自动选择搜索启发式方法，我们的方法在线学习和选择一组搜索启发式方法，旨在获得具有健壮性和比原先性能更好的自适应搜索启发式方法。初步实验表明，自适应技术比原始搜索启发式方法更为健壮且性能更好。

Abstract

Effective solving of constraint problems often requires choosing good or specific search heuristics. However, choosing or designing a good search heuristic is non-trivial and is often a manual process. In this pa

constraint problems search heuristics bandit-based learning techniques automatic selection robust performance

发现论文，激发创造

在线集群化的赌博机

介绍一种基于自适应聚类探索 - 利用 (“赌徒”) 策略的内容推荐算法，提供标准随机噪声环境下的尖锐遗憾分析，证明其伸缩性属性并在一些人工和实际数据集上证明其有效性。实验结果显示，在赌徒问题上，预测性能显著优于现有技术方法。

Jan, 2014

算法选择作为带无限损失的赌博机问题

本文提出一种将算法选择表示为部分信息的赌博问题的简单框架，并将现有的求解器适应于该游戏，证明了其期望遗憾的边界，该算法选择技术的也适用于此。

Jul, 2008

自适应 Crowdsourcing 算法用于 Bandit Survey 问题

通过自适应质量控制的简单模型，我们解决了多项选择任务中的 Bandit 调查问题，提出了几种算法，并通过分析和模拟支持了我们的方法。

Feb, 2013

低成本在线决策：一种组合多臂赌博机方法

本文基于组合多臂赌博机，考虑了测试成本，提供了一种新的成本高效的在线决策框架，并通过后验抽样或 BayesUCB 进行探索。我们对该框架进行了严格的理论分析，并提供了多个实验结果，证明了它在实际问题中的适用性。

Aug, 2023

基于乐观思维探索的大规模推荐系统

通过一系列大规模的生产推荐系统实验和深入的分析，我们展示了我们的强化学习代理设计如何提高生产推荐系统的个性化，在一定程度上解决了多任务扩展性和 A/B 测试等瓶颈，并给出了一套测量用户探索效率的新指标设计。

Apr, 2023

基于树搜索的进化赌博机算法用于蛋白质序列优化

利用树搜索和强化学习模型，提高蛋白质工程过程的效率，并在实验中展示了其样本高效和小突变数量下找到顶级设计的能力。

Jan, 2024

随机赌博机上的数据污染攻击

本文旨在研究敌对攻击策略对多臂赌博算法的影响，并提供了离线攻击和在线攻击的策略，展示了潜在的安全威胁。

May, 2019

智能教学系统的多臂赌博机

本文介绍了一种智能辅导系统的方法，该系统根据学生特定的时间和动机资源，自适应地个性化地最大化学习活动序列，以提高学生的技能，利用了内在动机学习的最新模型，并运用多臂老虎机技术进行优化，同时基于专家知识来加速探索初始启动

Oct, 2013

基于强盗驱动的批次选择以应对标签噪声下的鲁棒学习

我们引入了一种新颖的方法来选择随机梯度下降（SGD）训练中的批量，利用组合赌博算法。我们的方法主要关注在现实世界数据集中普遍存在的标签噪声的学习过程优化。对 CIFAR-10 数据集的实验评估表明，我们的方法在各种标签污染程度下始终优于现有方法。重要的是，我们在不引入常见辅助神经网络模型的计算开销的情况下实现了这种卓越性能。这项工作在计算效率和模型功效之间达到了平衡，为复杂机器学习应用提供了可扩展的解决方案。

Oct, 2023

Hyperband: 一种基于贝叶斯加权混合的超参数优化方法

本研究提出了一种新颖算法 Hyperband，通过自适应资源分配和提前终止实现了超参数优化的加速。该算法在一系列超参数优化问题中比流行的贝叶斯优化方法提供了一个数量级以上的加速。

Mar, 2016