双线性类：在 RL 中可证明的泛化的结构化框架

Mar, 2021

双线性类：在 RL 中可证明的泛化的结构化框架

Bilinear Classes: A Structural Framework for Provable Generalization in RL

Simon S. Du, Sham M. Kakade, Jason D. Lee, Shachar Lovett, Gaurav Mahajan...

TL;DR引入了新的框架 Bilinear Classes，用于增强学习的泛化，适用于通过函数逼近实现多种模型，其中 Best Known Sample Complexity Bounds 几乎与现有模型相匹配。

Abstract

This work introduces bilinear classes, a new structural framework, which permit generalization in reinforcement learning in a wide variety of settings through the use of →

bilinear classes reinforcement learning function approximation sample complexity supervised learning

发现论文，激发创造

双线性值网络

通过引入双线性分解的机制，将 Q-value 函数表示为两个向量场之间的点积形式，实现了在实现多目标强化学习过程中 Q-value 函数的优化，提高了数据效率和跨任务泛化能力。

Apr, 2022

一般强化学习的样本复杂度

本文提出了一种新的泛化强化学习算法，适用于真实环境属于 N 个任意模型的情况下。该算法被证明在除 O（N log^2 N）步骤之外的大部分情况下都是最优的，并考虑了无限的情况。同时研究表明，紧致性是决定存在统一样本复杂度界限的关键标准，并为有限情况给出匹配的下界。

Aug, 2013

使用状态和动作特征实现可扩展的双线性 $π$ 学习

本文介绍了一种基于 Approximate linear programming (APL) 的算法 ——bilinear pi learning，在采样 oracle 下用于强化学习，并证明了它具有可扩展性、在线实时性和样本效率等多种优势。

Apr, 2018

广义值函数逼近的强化学习：通过受限逃避维数可证明高效方法

本文提出一种基于一般价值函数逼近的强化学习算法，目的是建立一种没有对环境模型的显式假设的 RL 算法。如果价值函数能使用函数集合 F 近似，该算法将实现后悔界，为实际中使用的算法提供一个框架来证明其有效性。

May, 2020

学习非线性模型类的统一框架来自任意线性样本

通过给定的模型类，利用训练数据从学习未知对象的基础问题出发，我们引入了一个统一的框架，该框架允许将对象作为任意希尔伯特空间，具有一般类型的（随机）线性测量作为训练数据，以及一般类型的非线性模型类。我们为这个框架建立了一系列学习保证，并确保训练数据的数量与模型类的属性之间具有明确的关系，以确保接近最佳的泛化界限。通过这样做，我们还引入并发展了模型类关于采样操作的分布的变化的关键概念。为了展示该框架的多功能性，我们展示了它可以包容许多不同类型的感兴趣的已知问题，例如通过随机采样进行矩阵草图，使用各向同性向量的压缩感知，回归中的主动学习和使用生成模型的压缩感知。在所有情况下，我们展示了如何将已知结果变为我们的一般学习保证的直接推论。对于使用生成模型的压缩感知，我们还提出了一些近期结果的推广和改进。总之，我们的工作不仅引入了一种从各种数据类型中学习未知对象的统一方法，还确立了一系列统一的理论保证，巩固和改进了各种已知结果。

Nov, 2023

强化学习中的计算统计差距

本文针对强化学习中的大状态空间问题，研究使用函数逼近的强化学习方法，并提出了寻找高效率算法的方案，同时探讨了计算难度与统计问题之间的关系。

Feb, 2022

带有线性函数逼近的可证明有效强化学习

本文提出了第一个在基于线性动态和线性奖励时，具有多项式运行时间和样本复杂度的可证明的强化学习算法，该算法可以在不需要模拟器或其他假设的情况下实现，具有快速速度且与状态和动作数量无关。

Jul, 2019

基于核的 Q-Learning 的样本复杂度

本文论述了基于核心回归的 Q 学习在存在生成模型时的采样复杂度，提出了一种非参数 Q 学习算法，其样本复杂度优化到 ε 和核心复杂度的阶数，这是针对这种普遍模型的首个具有有限样本复杂度的结果。

Feb, 2023

大动作空间中的非线性强化学习：后验采样的结构条件和样本效率

本工作提出了一种非线性函数近似的新方法，该方法考虑了具有一般动作空间下的线性可嵌入性条件，设计了一种新的乐观后验取样策略 TS^3，并展示了一些最坏情况的样本复杂度保证。

Mar, 2022

面向能适应非结构化数据的无模型强化学习算法的发展

强化学习算法在尺度递增和非结构化观测方面表现良好的方法，能够有效利用外部知识构建预测结构，并提供环境和算法供研究无结构观测向量和平面动作空间的缩放问题。

Nov, 2023