线性潜在匪徒中利用离线数据
本文提出了一种解决 “潜在赌徒问题” 的算法,该问题是指机器学习智能体在未知离散潜在状态下知道手臂奖励分布,其主要目标是识别潜在状态。算法基于 UCBs 和 Thompson 采样,并在模型不确定性和规格不准确时具有上下文感知能力。理论分析表明,当潜在状态的数量小于行动数时,我们的算法优于传统的赌徒策略。综合实证研究表明了我们方法的优势。
Jun, 2020
利用离线数据在随机多臂赌博机的在线学习中进行了改进,提出了一个在线策略 MIN-UCB,在给定非平凡上界的情况下优于 UCB,适当地选择使用离线数据以提高性能,理论和实验结果都表明 MIN-UCB 是一个有效的策略。
May, 2024
该文提出了基于延迟反馈的随机线性赌博机及其算法 OTFLinUCB 和 OTFLinTS,并通过实验验证了其性能,其中 OTFLinUCB 算法的遗憾上界为 O (d√T)。
Jul, 2018
这篇论文研究在线决策问题,通过采用上下文乐队 it,并建立奖励模型来进行长期奖励最大化。 使用估计模型参数的 OLS 和 WLS 方法来处理该问题,借助中心极限定理证明了参数的渐近正常性。同时,我们还通过实验验证了我们的结论。
Oct, 2020
我们考虑具有非平稳收益的随机多臂赌博问题,提出了一个称为潜在 AR 赌博的新环境,在这个环境中,臂的平均收益随时间变化是由未知的、潜在的、自回归(AR)阶数为 k 的状态引起的。针对已知的 AR 阶数 k,我们提出了一个算法,在这种情况下实现了 O (k√T) 的遗憾。在多个非平稳环境中,我们的算法在实证上优于标准 UCB,即使 k 被错误估计。
Feb, 2024
我们提出了一种在考虑确定性演变和不可观测状态下进行强化学习的模型,其核心应用领域是推荐系统和在线广告学习,通过在算法选择的每一轮中考虑行为的短期奖励和系统的 “健康” 程度(即由其状态衡量),来计算奖励;该模型可适应不同演变速率 λ,旨在最小化与最佳固定选择序列相比的遗憾度。
Jul, 2023
该研究针对随机、组合式多臂老虎机问题,提出了一种将离线算法转化为基于有限老虎机反馈的子线性 α 遗憾策略的框架,并将其应用于离散优化问题中的基数问题和背包约束问题中获得了良好的表现。
Jan, 2023
该研究使用线性参数化多臂赌博机模型来提高在线服务推荐新产品、视频、歌曲和广告的效果,得到了能够满足用户喜好探索和系统数据调查的解决方案,并在 Netflix 和 MovieLens 数据集上进行了测试。
Jan, 2013
该论文介绍了一种离线强化学习的方法,使用压缩的潜在技能建模支援轨迹序列,避免外推错误,并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息,改进了信用分配,并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能,特别擅长长期,稀疏奖励任务。
Sep, 2023