连续动作下高效的上下文强化学习

Jun, 2020

连续动作下高效的上下文强化学习

Efficient Contextual Bandits with Continuous Actions

Maryam Majzoubi, Chicheng Zhang, Rajan Chari, Akshay Krishnamurthy, John Langford...

TL;DR我们创建了一个计算可行的算法，用于具有未知结构的连续操作的上下文强盗问题，并且它与大多数监督学习表示法相结合，我们证明它可以在一般意义下工作，并通过大规模实验验证了新功能。

Abstract

We create a computationally tractable algorithm for contextual bandits with continuous actions having unknown structure. Our reduction-sty

contextual bandits continuous actions supervised learning unknown structure large-scale experiments

发现论文，激发创造

具有大动作空间的上下文臂匠算法的实用化

提供了第一个通用的、效率高的算法，用于解决序列决策中存在的、现有算法在大型连续行动空间中表现不佳的问题，该算法基于（i）监督学习和（ii）行动空间的优化的计算预言，并显示其比标准基线方法表现更好。

Jul, 2022

具有平滑遗憾的情境臂控算法：连续行动空间高效学习

提出了一种平滑遗憾函数的背景自适应算法，可用于大量或连续动作空间下的通用背景自适应问题，并能适应各种光滑度级别的问题，取得了先前优化遗憾函数的最优性保证。

Jul, 2022

具有连续动作的上下文臂机：平滑、缩放和自适应

研究了一个抽象策略类和连续动作空间下的情境赌博学习，得到了与平滑策略类竞争以及要求标准 Lipschitz 条件的两个不同的遗憾界限。同时，我们研究了适应未知平滑参数的问题，建立了可适应性的代价，并推导出需要额外信息的最优自适应算法。

Feb, 2019

可证明的部分可观测上下文赌博机中的高效学习

我们研究了部分可观察环境下的上下文马尔可夫决策过程中的迁移学习问题，通过优化问题将其转化为识别或部分识别动作和奖励之间因果效应的问题，并通过线性规划的顺序求解来获得相容的因果模型，并在考虑估计误差的情况下获得因果边界。我们的采样算法提供了适宜的采样分布的收敛结果，然后展示了如何将因果边界应用于改进传统的贝叶斯增强算法，并对动作集大小和函数空间的影响进行了分析。与以往文献相比，我们的方法在函数逼近任务中可以处理一般的上下文分布，改善了对函数空间大小的依赖性。我们正式证明了我们的因果增强算法优于传统的贝叶斯增强算法，并实现了数量级更快的收敛速度。最后，我们进行了模拟实验，证明了我们的策略相对于当前最先进的方法的高效性，可以在数据稀缺且成本高昂的实际应用中提高上下文马尔可夫决策过程的性能。

Aug, 2023

驯服怪兽：一种快速简单的上下文赌博算法

本文提出了一种在线学习算法，具有上下文匹配学习问题中的统计最优保证，并通过少量的机器学习调用来完成，而且在性能方面非常优秀。

Feb, 2014

可预测奖励的情境决策学习

本研究探讨了一种基于可实现性假设下的上下文强化学习问题，并提出了一种新算法 —— 回归器消除，证明了其在保证可实现性前提下，也具有与不可实现性假设情况相似的遗憾率；同时在任意一组策略的情况下，我们证明了本算法具有恒定遗憾，相对于之前的方法而言。

Feb, 2012

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

风险感知的神经上下文点臂连续控制

我们提出了一个风险感知的决策框架，用于处理上下文褒贬问题，并满足实际环境中的约束条件，通过采用一个多批评者的角色体系来平衡约束满足度和性能。

Dec, 2023

上下文臂针对高效优化学习

本文介绍了一种在线学习算法，它使用了一种基于代价敏感分类器的方法，并实现了最优遗憾率，与之前的算法相比，具有指数级别的运行速度优势，并且在反馈延迟方面实现了加性遗憾而非乘性遗憾。

Jun, 2011

用于上下文强化学习问题的神经网络委员会

本文提出了一种新的上下文强化学习算法 NeuralBandit，它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值，并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试，包括奖励稳定和不稳定的情况，并取得了成功的效果。

Sep, 2014