- EduQate: 在教育场景中通过 RMABs 生成自适应课程
开发个性化和适应性教育工具的过程中,探索如何以高效方式跨多样但相关内容实现知识掌握成为关键。本论文引入了名为 EdNetRMABs 的 Education Network Restless Multi-armed Bandits,利用网络表 - ICML贝叶斯数据选择
将数据选择作为决策问题,并通过导出相应的贝叶斯准则为半监督学习中的自我训练等问题提供了贝叶斯最优选择数据的方法。根据模拟和真实数据的实证评估,我们进一步展示了该准则在广义线性模型、半参数广义加性模型和贝叶斯神经网络上减轻了确认偏差的问题。
- 无性能损失的批量顺序减半算法
本文研究了多臂赌博机中纯探索问题,特别关注批处理中的臂拉取情况。我们引入了一个简单的批处理版本的顺序减半算法,并从理论上证明在实际条件下批处理不会降低原算法的性能。此外,通过实验证明了顺序减半算法在固定批处理设置下的稳健性。
- 因果抽象多臂赌博机
将传输学习应用于因果抽象多臂赌博机,研究算法学习和后悔度,以解决在线广告相关的现实场景。
- 大型语言模型的假设生成
大型语言模型利用数据分析生成假设,通过多臂赌博机设计奖励函数提高预测性能,并发现验证人类理论的新见解。
- 改进的多臂赌博机问题的近乎紧密逼近保证
我们对改进的多臂赌博机问题给出了近似最优的上下界。我们证明了对于任何随机在线算法,存在一个实例使其相对于最优收益至少有一个 Ω(√k) 的近似因子。然后,我们提供了一个随机在线算法,在事先告知最优臂可达到的最大收益的情况下,保证了一个 O - 具上下文的无休止多臂赌博机在需求响应决策中的应用
介绍了一种新的多臂赌博机框架 —— 上下文不安定赌博机(CRB),用于复杂的在线决策。该 CRB 框架结合了上下文赌博机和不安定赌博机的核心特征,可以模拟每个臂的内部状态转换以及外部全局环境上下文的影响。使用双重分解方法,我们开发了一个可扩 - 基于种群的强化学习的相位多样性优化
多样性强化学习中的多样性优化算法中,通过引入一种称为 Phasic Diversity Optimization (PDO) 的基于群体训练的框架,将奖励和多样性分别训练,并在敌对空战和 MuJoCo 仿真中的实验表明,其性能优于基线算法。
- 带干扰的多臂赌博机
在当代在线平台中,干扰实验面临重大挑战。本研究介绍了具有干扰的多臂赌博机问题,应用集群随机化策略来达到最优期望后悔值,并得出高概率边界与实验单元数 N 无关。
- ICLR自适应遗憾在可能的情况下:只需两个查询
在线优化中,给出了强适应遗憾的准确查询和遗憾最优的贪心算法,同时给出了多臂赌博机和赌博凸优化的最优算法,并通过实证研究表明了在不稳定环境和下游任务中的卓越表现。
- 强化学习和交互决策的基础
这篇论文采用统计学的角度对强化学习和互动决策的基础进行了概述,提出了一个统一的框架来解决探索与利用的困境,同时使用频率学派和贝叶斯方法,并通过监督学习、估计和决策之间的联系和相似之处作为一个主题展开。特别关注于函数逼近和灵活的模型类别,如神 - 异步联邦赌臂纯探索
我们研究了多臂赌博机和线性赌博机的联邦纯探索问题,在该问题中, M 个代理通过与中央服务器通信来合作地识别最佳臂。为了增强算法对延迟和代理不可用性的鲁棒性,我们提出了第一个用于固定置信度的联邦异步多臂赌博机和线性赌博机算法。我们的理论分析表 - 贝叶斯设计原则在频率学派的顺序学习中的应用
我们提出了一种通用理论来优化顺序学习问题的频率后悔,从统一的贝叶斯原理中可以得出高效的 Bandit 和强化学习算法。我们提出了一种新的优化方法,在每一轮生成 “算法信念”,并使用贝叶斯后验进行决策。这种优化目标被称为 “算法信息比”,代表 - 最佳选择躲避:关于多臂老虎机的纯探索的近最优多遍流式下限
纯探索、多臂赌博机、多次传递流算法、样本通过折衷、奖励差距
- 元学习对抗强盗算法
该论文研究了具有 bandit feedback 的在线元学习,目的是通过某种自然的相似性度量改善类似的多个任务的性能。
- 使用遗忘采样器在低秩结构的多臂老虎机中进行纯探索
该论文考虑了纯探索问题回报序列的低秩结构,提出了一种分离设置的探索策略,并通过利用奖励向量的核信息,提供了高效算法,同时展示了多臂赌博机问题下纯探索的上下界。
- 基于序列的最优臂识别及其在脑机接口中的应用
采用先前任务学习得到的先验知识,我们提出了一种串联的前两名 Thompson 抽样算法 (Sequential Top-two Thompson Sampling, STTS),将广义多臂老虎机中的最佳臂序列问题视为一系列任务。这种算法取得 - 多臂老虎机用于多任务神经求解器的高效训练
本文提出了一种基于多臂老虎机的通用高效训练模式,通过理论损失分解和逐任务影响矩阵使多任务神经求解器的训练更高效,证明了该方法的优越性和在多任务大模型训练中的应用前景。
- 停机多臂赌博模型的最优激活
本文研究 Halting Bandit 模型中的新型动态分配问题,作为应用,我们得出了传统 Gittins 指数分解结果的新证明和作者在 “普遍折旧和承诺下的多臂赌博机” 中的最新结果。
- 推荐系统中的赌博算法现场测试:理解多臂赌博机对人类偏好假设的有效性
本文探究并验证基于多臂赌博机算法 (MABs) 生成的个性化推荐系统所依赖的假设是否正确,结果表明人类偏好动态性的存在需要被考虑。同时,作者还提供了一种灵活的实验框架来理解人类偏好动态性和测试 MABs 算法。