上下文推荐的政策梯度

Feb, 2018

Policy Gradients for Contextual Bandits

Feiyang Pan, Qingpeng Cai, Pingzhong Tang, Fuzhen Zhuang, Qing He

TL;DR本研究提出了基于策略梯度的上下文推荐模型（PGCR），通过利用时间相关贪心和Actor-Dropout两种启发式技术解决了现实环境下上下文问题的应用，包括个性化广告等。实验验证了PGCR能够快速收敛，低遗憾，并优于经典上下文贝叶斯和原始策略梯度方法。

Abstract

We study a generalized contextual-bandits problem, where there is a state that decides the distribution of contexts of arms and affects the immediate reward when choosing an arm. The problem applies to a wide range of realistic settings such as personalized recommender systems and natural language generations. We put forward a class of policies in which the

发现论文，激发创造

加速上下文强化学习的分层探索

本文提出了一种粗到细的分层方法，通过编码先验知识显著减少了探索用户反馈所需的工作量，其效果得到了广泛模拟和用户研究的证明，适用于个性化新闻推荐。

Jun, 2012

驯服怪兽：一种快速简单的上下文赌博算法

本文提出了一种在线学习算法，具有上下文匹配学习问题中的统计最优保证，并通过少量的机器学习调用来完成，而且在性能方面非常优秀。

Feb, 2014

对抗环境学习的高效算法

该论文提出了用于对抗环境下上下文相关强化学习问题的第一种Oracle有效的亚线性后悔算法，分析了两个场景，其中一个是传递式场景，另一个是小分离器设置

Feb, 2016

上下文臂机问题的大部分无需探索算法

证明了当观察到的上下文具有足够的随机性时，贪心算法可以达到速率最优，并介绍了一种新的算法 Greedy-First，该算法仅使用观察到的上下文和奖励来确定是否按照贪心策略或探索策略，同时证明该算法在没有对上下文分布或手臂数量做任何其他假设的情况下具有速率最优的性质，并大量模拟结果表明，Greedy-First成功地减少了探索并优于现有的基于Exploration的上下文bandit算法，如Thompson sampling或upper confidence bound（UCB）。

Apr, 2017

上下文赌博大比拼

本文是对背景上下文算法的一个全面的研究和综述，重点关注依靠监督学习的优化原则的实用方法，并利用大量的监督学习数据集进行了实证评估。研究发现，最近使用不确定性乐观主义的方法在整体上效果最好，其次是通过上下文多样性暗示进行探索的简单贪心基线。

Feb, 2018

上下文阻塞赌博机

该论文研究了一种新的上下文多臂赌博问题，其中玩家在每个时间步观察独立采样的上下文，以确定每个臂的平均回报，但播放一个臂会在未来的一定时间步内阻止它。作者提出了基于UCB的算法来解决这个问题，同时介绍了延迟利用和机会抽样的概念。

Mar, 2020

离线神经情境臂: 悲观、优化和泛化

本文研究如何使用神经网络函数逼近优化离线上下文强化学习策略，提出了一种无需对奖励函数进行函数假设的离线上下文强化学习算法，应用随机梯度下降进行在线学习提高计算效率，并表明该方法具有较好的泛化能力和更好的依赖于神经网络的有效维度，同时在一系列的合成和实际问题中表现出了很好的效果。

Nov, 2021

具有大动作空间的上下文臂匠算法的实用化

提供了第一个通用的、效率高的算法，用于解决序列决策中存在的、现有算法在大型连续行动空间中表现不佳的问题，该算法基于（i）监督学习和（ii）行动空间的优化的计算预言，并显示其比标准基线方法表现更好。

Jul, 2022

具有平滑遗憾的情境臂控算法：连续行动空间高效学习

提出了一种平滑遗憾函数的背景自适应算法，可用于大量或连续动作空间下的通用背景自适应问题，并能适应各种光滑度级别的问题，取得了先前优化遗憾函数的最优性保证。

Jul, 2022

上下文多臂老虎机的离线策略优化：高效的谨慎性

本文介绍了一种称为`pessimistic policy optimization`的算法，用于处理contextual bandits中的策略优化问题，并提供了对于这种方法的最佳统计估计。该算法运用监督学习的方法，在离线交互日志的基础上进行训练，非常适用于处理连续和离散行为空间的问题。

Jun, 2023