多臂老虎机用于多任务神经求解器的高效训练

May, 2023

多臂老虎机用于多任务神经求解器的高效训练

Efficient Training of Multi-task Neural Solver with Multi-armed Bandits

Chenguang Wang, Tianshu Yu

TL;DR本文提出了一种基于多臂老虎机的通用高效训练模式，通过理论损失分解和逐任务影响矩阵使多任务神经求解器的训练更高效，证明了该方法的优越性和在多任务大模型训练中的应用前景。

Abstract

Efficiently training a multi-task neural solver for various combinatorial optimization problems (COPs) has been less studied so far. In this paper, we propose a general and efficient training paradigm based on

multi-task neural solver combinatorial optimization problems training paradigm multi-armed bandits loss decomposition

发现论文，激发创造

元学习下的神经协作过滤赌博机

通过构建神经协同过滤自适应组 Metaban 算法，本文将人工智能中的探究与利用困境（exploitation-exploration dilemma）应用于定制化推荐，并在实验中将 Metaban 与六种模型进行对比，结果表明 Metaban 显著优于其他模型的表现。

Jan, 2022

低成本在线决策：一种组合多臂赌博机方法

本文基于组合多臂赌博机，考虑了测试成本，提供了一种新的成本高效的在线决策框架，并通过后验抽样或 BayesUCB 进行探索。我们对该框架进行了严格的理论分析，并提供了多个实验结果，证明了它在实际问题中的适用性。

Aug, 2023

智能教学系统的多臂赌博机

本文介绍了一种智能辅导系统的方法，该系统根据学生特定的时间和动机资源，自适应地个性化地最大化学习活动序列，以提高学生的技能，利用了内在动机学习的最新模型，并运用多臂老虎机技术进行优化，同时基于专家知识来加速探索初始启动

Oct, 2013

基于元数据的贝叶斯分层模型多任务赌博机

在这篇论文中，我们引入了基于元数据的多任务赌博机问题，提出了一种基于贝叶斯分层模型的任务关系捕捉方法，并设计了一个 Thompson 抽样算法来高效地学习任务关系、共享信息，并最小化累计遗憾。通过对高斯赌博机和伯努利赌博机的分析，我们证明了信息共享的算法的好处。该方法还得到了广泛的实验支持。

Aug, 2021

使用本能：利用神经武士和变形金刚的指导优化

使用神经劫持算法优化预训练 transformer 模型的指令，以提升大型语言模型在不同任务中的性能。

Oct, 2023

联邦组合多智能体多臂赌博机

该论文介绍了一个用于在线组合优化和有限带反馈的联邦学习框架，该框架将任何具有复杂度为 O (psi/epsilon^beta)（其中省略了对数计算，psi 是一个函数，beta 是常数）的离线单代理（alpha-epsilon）逼近算法转化为具有 m 个通信代理和 alpha 遗憾度的在线多代理算法，并保证了与时间跨度 T 的次线性增长，且随着通信代理数量的增加而线性加速。此外，该算法还具有高效的通信特性，只需要亚线性数量的通信轮次，通过将该框架成功应用于在线随机子模块最大化，并实现了第一个单代理和多代理设置的结果，以及恢复了专门的单代理理论保证。我们还通过对随机数据摘要问题的实证验证来展示所提出的框架的有效性，即使在单代理场景中也是如此。

May, 2024

元学习对抗强盗算法

该论文研究了具有 bandit feedback 的在线元学习，目的是通过某种自然的相似性度量改善类似的多个任务的性能。

Jul, 2023

多目标组合优化的高效元神经启发式算法

我们提出了一种高效的元神经启发式方法（EMNH），通过使用基于深度强化学习的神经启发式方法来解决多目标组合优化问题，以提高学习效率和解决质量。

Oct, 2023

元学习对抗性赌博机

本文研究了跨多任务的在线学习问题，设计了一个统一的元算法，旨在优化平均性能。该算法在多臂老虎机和乐观线性优化两个重要情境下提供了特定保证，通过任务平均后悔的降低来提高性能。

May, 2022

更多适应性算法用于对抗式赌博机

提出了一种新颖的算法，采用乐观性和适应性技术，结合在线镜像下降框架和特殊的对数障碍正则化器来解决对抗性多臂赌博机问题和组合半赌博问题，并在提高先前工作的同时，取得了多种新的数据依赖性遗憾界。

Jan, 2018