利用函数逼近进行实验规划

Jan, 2024

Experiment Planning with Function Approximation

Aldo Pacchiano, Jonathan N. Lee, Emma Brunskill

TL;DR我们研究了上下文强化学习中的函数逼近实验规划问题，针对数据收集过程存在较大开销的情况，我们提出了两种与函数逼近相容的实验规划策略。第一种是根据奖励函数类的边界维度实现的假设者规划和采样过程，可实现最优性保证。第二种是在动作数较小的情况下，我们证明了均匀采样器在实验规划中可以达到具有竞争性的最优性。最后，我们介绍了统计差距以详细阐述规划和自适应学习之间的基本差异，并提供了用于模型选择的实验规划结果。

Abstract

We study the problem of experiment planning with function approximation in contextual bandit problems. In settings where there is a signif

experiment planning function approximation contextual bandit problems data collection reward models

发现论文，激发创造

可证明的部分可观测上下文赌博机中的高效学习

我们研究了部分可观察环境下的上下文马尔可夫决策过程中的迁移学习问题，通过优化问题将其转化为识别或部分识别动作和奖励之间因果效应的问题，并通过线性规划的顺序求解来获得相容的因果模型，并在考虑估计误差的情况下获得因果边界。我们的采样算法提供了适宜的采样分布的收敛结果，然后展示了如何将因果边界应用于改进传统的贝叶斯增强算法，并对动作集大小和函数空间的影响进行了分析。与以往文献相比，我们的方法在函数逼近任务中可以处理一般的上下文分布，改善了对函数空间大小的依赖性。我们正式证明了我们的因果增强算法优于传统的贝叶斯增强算法，并实现了数量级更快的收敛速度。最后，我们进行了模拟实验，证明了我们的策略相对于当前最先进的方法的高效性，可以在数据稀缺且成本高昂的实际应用中提高上下文马尔可夫决策过程的性能。

Aug, 2023

线性上下文臂优化中的自适应探索

我们设计了一种渐近上限最优算法，并充分利用线性结构和精确探索，从而减少了在多种合理情境下的失算，数值结果表明，与其他基准算法相比，我们的方法大大减少了失算。

Oct, 2019

上下文赌博机的超参数调整

本文探讨了在线学习环境下，通过使用赌博机算法来自动确定探索参数，优化上下文赌博算法探索与利用的平衡问题。

May, 2020

可预测奖励的情境决策学习

本研究探讨了一种基于可实现性假设下的上下文强化学习问题，并提出了一种新算法 —— 回归器消除，证明了其在保证可实现性前提下，也具有与不可实现性假设情况相似的遗憾率；同时在任意一组策略的情况下，我们证明了本算法具有恒定遗憾，相对于之前的方法而言。

Feb, 2012

部分可观察情境下的汤普森抽样

基于观测数据的贝叶斯泰普森抽样策略成功地平衡了探索和利用，通过引入新的鞅技术和浓厚不等式解决了部分观测相关随机变量的问题，为研究其他具有上下文信息和部分观测的决策问题铺平了道路。

Feb, 2024

具有线性函数逼近的分布鲁棒离线强化学习

本论文介绍了一种用于解决强化学习中有限数据和训练测试环境不匹配的问题的分布式离线 RL 方法，该方法使用历史数据学习分布式鲁棒的策略，包括线性函数逼近的情况，提出了两种算法，得出了第一个样例复杂度的非渐近性结果，并展示了其在实验上的优越性。

Sep, 2022

双重稳健策略评估与优化

论文研究了在环境中收益只有部分观测可用的情况下如何进行顺序决策，提出了双重稳健估计技术用于政策评估和优化，证明了该方法在具有良好收益模型或过去政策模型的情况下都能产生准确的价值估计。

Mar, 2015

基于线性函数逼近的无奖励强化学习中的近最优部署效率

研究如何在施加 “无回报探索” 的情况下，使用线性函数逼近在提高效率时落地实施策略，最后我们提出了一种新算法，只需在 H 次部署中收集最多 O (~d²H⁵/ε²) 的轨迹，在不同的奖励函数设定下，即可找到一个 ε- 最优策略，并且在样本复杂度和 d 依赖性中同时达到最优的部署复杂度。

Oct, 2022

双重稳健策略评估与学习

在具有上下文情境和目标函数的决策环境中，我们使用双重稳健技术评估新策略，并证明这种方法使价值估计具有较低的方差，且能达到更好的策略，为该领域提供一种有效的方法。

Mar, 2011

带阶段约束的情境强化学习

我们在上下文感知强化学习中研究了阶段限制的情况，并提出了一种上界置信区间算法来平衡探索和约束满足，同时证明了其遗憾界。

Jan, 2024