强化学习中的全局自由和实例相关固定函数逼近的遗憾界限

Dec, 2023

强化学习中的全局自由和实例相关固定函数逼近的遗憾界限

Horizon-Free and Instance-Dependent Regret Bounds for Reinforcement Learning with General Function Approximation

Jiayi Huang, Han Zhong, Liwei Wang, Lin F. Yang

TL;DR通过提出 UCRL-WVTR 算法，解决强化学习中长期规划问题；该算法实现了无视时间限制和依赖实例的特点，且具有计算效率；算法设计和细致分析基于函数近似，达到了无时间限制、依赖实例和尖锐后悔界限的目标；理论研究得到了大量的实验验证。

Abstract

To tackle long planning horizon problems in reinforcement learning with general function approximation, we propose the first algorithm, termed as

reinforcement learning function approximation ucrl-wvtr regret bound algorithm design

发现论文，激发创造

VO$Q$L: 非线性函数逼近下无模型强化学习的最优遗憾

该研究旨在通过引入新算法 VOQL，改进理论边界，并实现对线性 MDP 等函数类的回归任务进行计算上的高效且统计优化的可行性。

Dec, 2022

线性马尔可夫决策过程的无界遗憾

近期一些研究工作展示了强化学习中降低后悔的边界可以（几乎）与计划周期无关，即所谓的无周期边界。然而，这些后悔边界仅适用于允许对转移模型大小多项式依赖的设置，例如表格型马尔科夫决策过程（MDP）和线性混合 MDP。我们给出了流行的线性 MDP 设置的首个无周期边界，其中转移模型的大小可以是指数级大甚至是不可数的。与先前的工作相比，该方法不需要明确估计转移模型并计算不同时间步的非齐次值函数，而是直接估计值函数和置信区间集合。通过保持多个加权最小二乘估计器，该方法获得了无周期边界，并且通过结构引理证明了非齐次值函数的最大总变差受特征维数的多项式因子限制。

Mar, 2024

使用值函数界限在没有领域知识的情况下加强强化学习的问题相关遗憾范围

该研究针对有限时间段的离散马尔科夫决策问题，提出了一种算法并分析了其性能上限，得出了最先进的范围和如果环境规范小则更紧的限制，其不需要先前对应环境规范的知识，能解决经验学习中常常遇到的限制问题。

Jan, 2019

使用函数逼近解决强化学习中重尾奖励问题：极小最优和实例相关遗憾界

本文提出了两个针对带有重尾奖励的强化学习问题的算法，分别是 extsc {Heavy-OFUL} 和 extsc {Heavy-LSVI-UCB}，并证明了它们在确定性和随机线性 bandits 的最劣情况下是最优的，同时通过一种新的鲁棒的自正规化集中不等式来实现优化。

Jun, 2023

基于无界时间跨度和方差的隐含马尔可夫决策过程强化学习

本文研究基于后知的上下文中的潜在马尔可夫决策过程（LMDPs）的强化学习中的遗憾最小化问题，设计了一种新的基于模型的算法框架，证明了具有一定时间复杂度的遗憾上限。

Oct, 2022

具有线性函数逼近的可证明高效的无模型约束强化学习

发展第一个无需模拟器的模型自由算法，它在大型系统中实现次线性遗憾和次线性约束违规，并且仅通过特征映射的维度依赖于状态空间。这是通过在标准 LSVI-UCB 算法中引入原始 - 对偶优化和用软最大策略替换标准贪婪选择来实现的。

Jun, 2022

使用通用价值函数逼近进行强化学习中的随机探索

提出了一种无模型强化学习算法，由于乐观原则和最小二乘价值迭代算法的启示，通过简单地使用谨慎选择的独立同分布的标量噪声扰乱训练数据来推动探索，在估计乐观值函数的同时引入了一种乐观的奖励采样过程，并证明了当数值函数可由函数类 \mathcal {F} 表示时，该算法实现了最坏情况下的遗憾度量边界，并在已知的难度探索任务上进行了实证评估。

Jun, 2021

上置信强化学习中的探索优化

UCRL3 算法是在 UCRL2 算法的基础上引入了专业时间均匀集中不等式和每个状态 - 动作对奖励和转移分布的置信区间等改进，以减少探索来优化分布，理论上改善了 UCRL2 算法，在标准环境下的数值实验也证明了 UCRL3 算法的实用性和有效性。

Apr, 2020

强化学习的变分遗憾界

该研究针对马尔可夫决策过程中的无折扣强化学习问题提出了一种算法，并提供了针对最优非静态策略的性能保证。给出了在 MDP 总变差方面的差错的上限，这是一般强化学习设置的第一个变分差错界限。

May, 2019

利用线性函数近似的强化学习的一阶遗憾：一种鲁棒估计方法

本研究基于鲁棒 Catoni 平均值估计器，提出一种新的鲁棒自归一化浓度界，解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题，并证明了在线性 MDP 设定下，可以获得与最优策略性能某种度量成比例的遗憾上界。

Dec, 2021