线性潜在匪徒中利用离线数据

May, 2024

Leveraging Offline Data in Linear Latent Bandits

Chinmaya Kausik, Kevin Tan, Ambuj Tewari

TL;DR通过建立 de Finetti 定理和提出 SOLD 方法，该研究论文展示了潜在赌博机框架的广泛适用性，以及在线学习和离线数据集问题的解决方案，并在合成数据和电影推荐数据上进行了实验证明。

Abstract

Sequential decision-making domains such as recommender systems, healthcare and education often have unobserved heterogeneity in the population that can be modeled using latent bandits $-$ a framework where an unobserved latent state determines the model for a trajectory. While the late

latent bandits online learning linear model offline datasets recommendation data

发现论文，激发创造

潜在赌徒问题的再探讨

本文提出了一种解决 “潜在赌徒问题” 的算法，该问题是指机器学习智能体在未知离散潜在状态下知道手臂奖励分布，其主要目标是识别潜在状态。算法基于 UCBs 和 Thompson 采样，并在模型不确定性和规格不准确时具有上下文感知能力。理论分析表明，当潜在状态的数量小于行动数时，我们的算法优于传统的赌徒策略。综合实证研究表明了我们方法的优势。

Jun, 2020

利用（有偏）信息：带离线数据的多臂老虎机

利用离线数据在随机多臂赌博机的在线学习中进行了改进，提出了一个在线策略 MIN-UCB，在给定非平凡上界的情况下优于 UCB，适当地选择使用离线数据以提高性能，理论和实验结果都表明 MIN-UCB 是一个有效的策略。

May, 2024

具有随机延迟反馈的线性赌博机

该文提出了基于延迟反馈的随机线性赌博机及其算法 OTFLinUCB 和 OTFLinTS，并通过实验验证了其性能，其中 OTFLinUCB 算法的遗憾上界为 O (d√T)。

Jul, 2018

上下文匹配赌博机环境下的在线决策统计推断

这篇论文研究在线决策问题，通过采用上下文乐队 it，并建立奖励模型来进行长期奖励最大化。使用估计模型参数的 OLS 和 WLS 方法来处理该问题，借助中心极限定理证明了参数的渐近正常性。同时，我们还通过实验验证了我们的结论。

Oct, 2020

非平稳潜在自回归赌博算法

我们考虑具有非平稳收益的随机多臂赌博问题，提出了一个称为潜在 AR 赌博的新环境，在这个环境中，臂的平均收益随时间变化是由未知的、潜在的、自回归（AR）阶数为 k 的状态引起的。针对已知的 AR 阶数 k，我们提出了一个算法，在这种情况下实现了 O (k√T) 的遗憾。在多个非平稳环境中，我们的算法在实证上优于标准 UCB，即使 k 被错误估计。

Feb, 2024

在线匹配：一种用于大规模推荐的实时试错系统

通过在线学习的方法，本研究提出了一种用于大规模推荐系统的可扩展闭环赌博系统，以提高新内容发现和物品探索的能力。

Jul, 2023

具有确定性演化状态的赌博机

我们提出了一种在考虑确定性演变和不可观测状态下进行强化学习的模型，其核心应用领域是推荐系统和在线广告学习，通过在算法选择的每一轮中考虑行为的短期奖励和系统的 “健康” 程度（即由其状态衡量），来计算奖励；该模型可适应不同演变速率 λ，旨在最小化与最佳固定选择序列相比的遗憾度。

Jul, 2023

适应离线算法来解决带有固定反馈的组合多臂赌博问题的框架

该研究针对随机、组合式多臂老虎机问题，提出了一种将离线算法转化为基于有限老虎机反馈的子线性 α 遗憾策略的框架，并将其应用于离散优化问题中的基数问题和背包约束问题中获得了良好的表现。

Jan, 2023

高维线性赌博机和推荐系统

该研究使用线性参数化多臂赌博机模型来提高在线服务推荐新产品、视频、歌曲和广告的效果，得到了能够满足用户喜好探索和系统数据调查的解决方案，并在 Netflix 和 MovieLens 数据集上进行了测试。

Jan, 2013

离线强化学习中的潜在扩散推理

该论文介绍了一种离线强化学习的方法，使用压缩的潜在技能建模支援轨迹序列，避免外推错误，并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息，改进了信用分配，并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能，特别擅长长期，稀疏奖励任务。

Sep, 2023