具有大动作空间的上下文臂匠算法的实用化

ICMLJul, 2022

具有大动作空间的上下文臂匠算法的实用化

Contextual Bandits with Large Action Spaces: Made Practical

Yinglun Zhu, Dylan J. Foster, John Langford, Paul Mineiro

TL;DR提供了第一个通用的、效率高的算法，用于解决序列决策中存在的、现有算法在大型连续行动空间中表现不佳的问题，该算法基于（i）监督学习和（ii）行动空间的优化的计算预言，并显示其比标准基线方法表现更好。

Abstract

A central problem in sequential decision making is to develop algorithms that are practical and computationally efficient, yet support the use of flexible, general-purpose models. Focusing on the contextual bandit probl

sequential decision making contextual bandit problem flexible models continuous action spaces efficient algorithms

发现论文，激发创造

连续动作下高效的上下文强化学习

我们创建了一个计算可行的算法，用于具有未知结构的连续操作的上下文强盗问题，并且它与大多数监督学习表示法相结合，我们证明它可以在一般意义下工作，并通过大规模实验验证了新功能。

Jun, 2020

具有平滑遗憾的情境臂控算法：连续行动空间高效学习

提出了一种平滑遗憾函数的背景自适应算法，可用于大量或连续动作空间下的通用背景自适应问题，并能适应各种光滑度级别的问题，取得了先前优化遗憾函数的最优性保证。

Jul, 2022

线性上下文臂优化中的自适应探索

我们设计了一种渐近上限最优算法，并充分利用线性结构和精确探索，从而减少了在多种合理情境下的失算，数值结果表明，与其他基准算法相比，我们的方法大大减少了失算。

Oct, 2019

上下文赌博大比拼

本文是对背景上下文算法的一个全面的研究和综述，重点关注依靠监督学习的优化原则的实用方法，并利用大量的监督学习数据集进行了实证评估。研究发现，最近使用不确定性乐观主义的方法在整体上效果最好，其次是通过上下文多样性暗示进行探索的简单贪心基线。

Feb, 2018

有限动作线性背景下的顺序批次学习

我们研究了线性环境中上下文臂中的顺序批处理学习问题，其中决策者被限制将个体分成（至多）固定数量的批处理，并且只能在批处理结束时观察批处理内的个体的结果。我们研究了问题的两种设置：一种是上下文是任意生成的，另一种是上下文是从某个分布中 iid 抽取的。在每个环境下，我们确定了遗憾下界，并提供了一个算法，其遗憾上界几乎与下界相匹配。

Apr, 2020

风险感知的神经上下文点臂连续控制

我们提出了一个风险感知的决策框架，用于处理上下文褒贬问题，并满足实际环境中的约束条件，通过采用一个多批评者的角色体系来平衡约束满足度和性能。

Dec, 2023

可证明的部分可观测上下文赌博机中的高效学习

我们研究了部分可观察环境下的上下文马尔可夫决策过程中的迁移学习问题，通过优化问题将其转化为识别或部分识别动作和奖励之间因果效应的问题，并通过线性规划的顺序求解来获得相容的因果模型，并在考虑估计误差的情况下获得因果边界。我们的采样算法提供了适宜的采样分布的收敛结果，然后展示了如何将因果边界应用于改进传统的贝叶斯增强算法，并对动作集大小和函数空间的影响进行了分析。与以往文献相比，我们的方法在函数逼近任务中可以处理一般的上下文分布，改善了对函数空间大小的依赖性。我们正式证明了我们的因果增强算法优于传统的贝叶斯增强算法，并实现了数量级更快的收敛速度。最后，我们进行了模拟实验，证明了我们的策略相对于当前最先进的方法的高效性，可以在数据稀缺且成本高昂的实际应用中提高上下文马尔可夫决策过程的性能。

Aug, 2023

驯服怪兽：一种快速简单的上下文赌博算法

本文提出了一种在线学习算法，具有上下文匹配学习问题中的统计最优保证，并通过少量的机器学习调用来完成，而且在性能方面非常优秀。

Feb, 2014

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

具备回归神谕的实用上下文强化学习

本研究提出了一种新的技术，将可实现性方法的经验和计算优势与不可知方法的灵活性相结合，借助回归预测器的可用性来进行算法优化，实现了任何分布假设下出色的表现。

Mar, 2018