多臂老虎机用于多任务神经求解器的高效训练
通过构建神经协同过滤自适应组 Metaban 算法,本文将人工智能中的探究与利用困境(exploitation-exploration dilemma)应用于定制化推荐,并在实验中将 Metaban 与六种模型进行对比,结果表明 Metaban 显著优于其他模型的表现。
Jan, 2022
本文基于组合多臂赌博机,考虑了测试成本,提供了一种新的成本高效的在线决策框架,并通过后验抽样或 BayesUCB 进行探索。我们对该框架进行了严格的理论分析,并提供了多个实验结果,证明了它在实际问题中的适用性。
Aug, 2023
本文介绍了一种智能辅导系统的方法,该系统根据学生特定的时间和动机资源,自适应地个性化地最大化学习活动序列,以提高学生的技能,利用了内在动机学习的最新模型,并运用多臂老虎机技术进行优化,同时基于专家知识来加速探索初始启动
Oct, 2013
在这篇论文中,我们引入了基于元数据的多任务赌博机问题,提出了一种基于贝叶斯分层模型的任务关系捕捉方法,并设计了一个 Thompson 抽样算法来高效地学习任务关系、共享信息,并最小化累计遗憾。通过对高斯赌博机和伯努利赌博机的分析,我们证明了信息共享的算法的好处。该方法还得到了广泛的实验支持。
Aug, 2021
该论文介绍了一个用于在线组合优化和有限带反馈的联邦学习框架,该框架将任何具有复杂度为 O (psi/epsilon^beta)(其中省略了对数计算,psi 是一个函数,beta 是常数)的离线单代理(alpha-epsilon)逼近算法转化为具有 m 个通信代理和 alpha 遗憾度的在线多代理算法,并保证了与时间跨度 T 的次线性增长,且随着通信代理数量的增加而线性加速。此外,该算法还具有高效的通信特性,只需要亚线性数量的通信轮次,通过将该框架成功应用于在线随机子模块最大化,并实现了第一个单代理和多代理设置的结果,以及恢复了专门的单代理理论保证。我们还通过对随机数据摘要问题的实证验证来展示所提出的框架的有效性,即使在单代理场景中也是如此。
May, 2024
本文研究了跨多任务的在线学习问题,设计了一个统一的元算法,旨在优化平均性能。该算法在多臂老虎机和乐观线性优化两个重要情境下提供了特定保证,通过任务平均后悔的降低来提高性能。
May, 2022
提出了一种新颖的算法,采用乐观性和适应性技术,结合在线镜像下降框架和特殊的对数障碍正则化器来解决对抗性多臂赌博机问题和组合半赌博问题,并在提高先前工作的同时,取得了多种新的数据依赖性遗憾界。
Jan, 2018