上下文推荐的政策梯度
证明了当观察到的上下文具有足够的随机性时,贪心算法可以达到速率最优,并介绍了一种新的算法 Greedy-First,该算法仅使用观察到的上下文和奖励来确定是否按照贪心策略或探索策略,同时证明该算法在没有对上下文分布或手臂数量做任何其他假设的情况下具有速率最优的性质,并大量模拟结果表明,Greedy-First成功地减少了探索并优于现有的基于Exploration的上下文bandit算法,如Thompson sampling或upper confidence bound(UCB)。
Apr, 2017
本文是对背景上下文算法的一个全面的研究和综述,重点关注依靠监督学习的优化原则的实用方法,并利用大量的监督学习数据集进行了实证评估。研究发现,最近使用不确定性乐观主义的方法在整体上效果最好,其次是通过上下文多样性暗示进行探索的简单贪心基线。
Feb, 2018
该论文研究了一种新的上下文多臂赌博问题,其中玩家在每个时间步观察独立采样的上下文,以确定每个臂的平均回报,但播放一个臂会在未来的一定时间步内阻止它。作者提出了基于UCB的算法来解决这个问题,同时介绍了延迟利用和机会抽样的概念。
Mar, 2020
本文研究如何使用神经网络函数逼近优化离线上下文强化学习策略,提出了一种无需对奖励函数进行函数假设的离线上下文强化学习算法,应用随机梯度下降进行在线学习提高计算效率,并表明该方法具有较好的泛化能力和更好的依赖于神经网络的有效维度,同时在一系列的合成和实际问题中表现出了很好的效果。
Nov, 2021
提供了第一个通用的、效率高的算法,用于解决序列决策中存在的、现有算法在大型连续行动空间中表现不佳的问题,该算法基于(i)监督学习和(ii)行动空间的优化的计算预言,并显示其比标准基线方法表现更好。
Jul, 2022
提出了一种平滑遗憾函数的背景自适应算法,可用于大量或连续动作空间下的通用背景自适应问题,并能适应各种光滑度级别的问题,取得了先前优化遗憾函数的最优性保证。
Jul, 2022
本文介绍了一种称为`pessimistic policy optimization`的算法,用于处理contextual bandits中的策略优化问题,并提供了对于这种方法的最佳统计估计。该算法运用监督学习的方法,在离线交互日志的基础上进行训练,非常适用于处理连续和离散行为空间的问题。
Jun, 2023