基于 Bandit 反馈的多任务离线学习

Dec, 2022

基于 Bandit 反馈的多任务离线学习

Multi-Task Off-Policy Learning from Bandit Feedback

Joey Hong, Branislav Kveton, Sumeet Katariya, Manzil Zaheer, Mohammad Ghavamzadeh

TL;DR提出针对多个类似问题的层次图模型，用基于带环反馈的上下文离线策略优化解决问题，提出 HierOPO 算法并通过线性高斯模型实现，在模型、理论和实证数据上比单独解决每个任务有优势。

Abstract

Many practical applications, such as recommender systems and learning to rank, involve solving multiple similar tasks. One example is learning of recommendation policies for users with similar movie preferences, where the users may still rank the individual movies slightly differently.

hierarchical graphical model off-policy optimization linear gaussian models suboptimality recommendation policies

发现论文，激发创造

分层贝叶斯赌博机

该论文提出了一种基于分层贝叶斯赌博机的自然分层 Thompson 采样算法（HierTS），可有效解决元学习、多任务学习、联邦学习等类似问题，并通过实验展示了分层结构有助于任务间的知识共享。

Nov, 2021

分层强化学习中的子策略适应

本文提出了一种新的分层强化学习算法 HiPPO，它可以根据新任务的训练不断调整技能并与更高层次一起训练，该算法引入了一个无偏差的潜变量依赖基准的分层策略梯度，并提出了一种训练时抽象方法，以提高所获得技能对环境变化的鲁棒性。

Jun, 2019

离线多操作策略学习：泛化与优化

本文主要研究基于观测数据的离线多行动策略学习问题，特别地，该策略可能需要遵守预算约束或属于受限策略类，如决策树，提出了一个算法实现，能够达到渐近最小化风险后悔，这是在多行动设置中的首次结果，对于现有的学习算法有大幅度的性能提升。该文提出了两种不同的方法来解决当策略被限制为采用决策树形式时出现的附加计算挑战，一种方法使用混合整数方案，另一种方法使用基于树搜索的算法。

Oct, 2018

基于模拟策略的非珂环境下评估和学习记录型匪徒反馈反馈数据：通过替代策略减少误差

本文介绍了一种新的名为 “最大似然反向倾向评分（MLIPS）” 的方法，用于从批量日志二手反馈中学习。与现有方法相比，MLIPS 不仅具有渐近无偏性，而且具有更小的均方根误差，表现出更好的性能。

Aug, 2018

学习排序的悲观离线策略优化

本文研究基于数据采集的 “离线学习” 在推荐系统中的应用，提出了基于点击模型的悲观离线排序学习方法，经过实验和分析表明其优越性和通用性。

Jun, 2022

基于元数据的贝叶斯分层模型多任务赌博机

在这篇论文中，我们引入了基于元数据的多任务赌博机问题，提出了一种基于贝叶斯分层模型的任务关系捕捉方法，并设计了一个 Thompson 抽样算法来高效地学习任务关系、共享信息，并最小化累计遗憾。通过对高斯赌博机和伯努利赌博机的分析，我们证明了信息共享的算法的好处。该方法还得到了广泛的实验支持。

Aug, 2021

元学习对抗强盗算法

该论文研究了具有 bandit feedback 的在线元学习，目的是通过某种自然的相似性度量改善类似的多个任务的性能。

Jul, 2023

元学习对抗性赌博机

本文研究了跨多任务的在线学习问题，设计了一个统一的元算法，旨在优化平均性能。该算法在多臂老虎机和乐观线性优化两个重要情境下提供了特定保证，通过任务平均后悔的降低来提高性能。

May, 2022

基于核函数的离线上下文对抗波动策略

在这项研究中，我们利用代理人能够选择获取人工反馈的上下文的事实，引入了离线情境对决贝叶斯臂设置，提出了一种基于上置信界的算法，并证明了一种遗憾上界。实验证实了该方法胜过使用均匀采样上下文的类似策略。

Jul, 2023

基于 Bandit 反馈的乐观策略优化

本研究考虑模型基于强化学习中的政策优化方法，提出了一种乐观的信任域策略优化算法，在离散情况下，对于未知转换和奖励反馈的情况，获得了首个亚线性 Regret 的下界。

Feb, 2020