具有低 Bellman 秩的情境决策过程可以被 PAC 学习

Oct, 2016

具有低 Bellman 秩的情境决策过程可以被 PAC 学习

Contextual Decision Processes with Low Bellman Rank are PAC-Learnable

Nan Jiang, Akshay Krishnamurthy, Alekh Agarwal, John Langford, Robert E. Schapire

TL;DR本文探讨了如何使用富观测和函数逼近进行强化学习的系统性探索，并介绍了一种新的模型，即上下文决策过程，它统一和概括了大多数之前的设置，并提出了一种新的强化学习算法，我们的算法用 Bellman rank 衡量复杂度，使用乐观探索最小化 Bellman 误差，保证在所有相关参数的时间多项式的情况下学会近似最优行为，为强化学习提供了新的见解。

Abstract

This paper studies systematic exploration for reinforcement learning with rich observations and function approximation. We introduce a new

reinforcement learning function approximation contextual decision processes systematic exploration bellman rank

发现论文，激发创造

基于丰富观测的 PAC 强化学习

本研究提出一种新的强化学习模型，将上下文逐步演化到顺序决策制定，通过分析最小二乘值淘汰算法表明，在某些特定情形，强化学习方法的范数较优行为可以在多项式时间内学习。

Feb, 2016

常规决策过程中高效的 PAC 强化学习

本文探讨了如何在正则决策流程中实现强化学习，并提出了在一组参数中可以 PAC - 学习这一流程的最优策略。

May, 2021

低技术债务下的上下文决策

本论文提出 Decision Service，一个支持诸如强化学习等决策任务的通用系统，利用探索、日志、学习和部署这四个系统抽象不断学习并做出实时决策，可广泛应用于内容推荐、技术支持和机器故障处理等各领域，从而大幅降低实现相关算法的技术负债。

Jun, 2016

从赌徒模型到深度确定性策略梯度，具有情境信息的强化学习

在研究中，我们采用了两种方法来解决情境信息的问题：情境 Thompson 抽样和受监督的强化学习，这可以加速搜索最佳答案的迭代。为了研究量化市场中的战略交易，我们将之前的金融交易策略（常比例保险组合）与深度确定性策略梯度相结合。实验结果表明，两种方法都可以加速强化学习的进展，以获取最优解。

Oct, 2023

具有连续侧信息的马尔可夫决策过程

本文提出了一种基于上下文的马尔可夫决策过程增强学习算法，用于医疗保健中的治疗决策。算法基于平滑性假设进行学习，并给出了 PAC 边界。在上下文可线性组合的情况下，基于 KWIK 学习技术，我们提供了一个 PAC 学习算法。

Nov, 2017

上下文马尔可夫决策过程

论文讨论了一种名为 CMDP 的新模型，可模拟顾客在与网站交互时的行为，并基于此行为决定顾客特征，优化交互。作者提出了一系列算法，可以学习潜在的模型和上下文，并优化 CMDPs。

Feb, 2015

基于不同实例的情境臂和强化学习复杂度：一种基于反对的视角

该研究提出了一种用于上下文 Bandit 问题的复杂度度量方法，展示了其与最优实例相关遗憾的关系，并给出了新的算法来实现当存在一个最优选择时能够分辨性地进行探索。同时，该研究还在采用函数近似的强化学习问题上提出了新的算法，达到了优化的样本规模。

Oct, 2020

学习具有低基本 Bellman 误差的近最优策略

研究在近似线性行动价值函数的情况下，基于低内在 Bellman 误差的探索问题，给出了一种算法，其高概率的遗憾上界与特征维数和 Bellman 误差有关，同时将其与先前的工作进行了比较，在线性 MDP 的情况下，证明了这个算法具有统计效率。

Feb, 2020

离散 Markov 语境演变下的强化学习

本文基于贝叶斯方法和变分推断，通过运用适合马尔科夫过程建模的粘性 HDP 先验，提出了一种处理具有不可观测可变上下文、马尔科夫上下文演化和突发性上下文变化的情境相关强化学习问题的框架，并且在运用了上述框架后，成功地实现了在一些开放环境下的较高效政策学习，这也是其他同类方法做不到的。

Feb, 2022

Bellman Meets Hawkes: 基于模型的时空点过程强化学习

通过 Hawkes 过程建立了异步离散事件的环境动力学模型，并开发了一种基于模型的强化学习算法，用于解决社交媒体、金融和健康信息学中广泛存在的顺序决策问题。

Jan, 2022