双线性类:在 RL 中可证明的泛化的结构化框架
通过引入双线性分解的机制,将 Q-value 函数表示为两个向量场之间的点积形式,实现了在实现多目标强化学习过程中 Q-value 函数的优化,提高了数据效率和跨任务泛化能力。
Apr, 2022
本文提出了一种新的泛化强化学习算法,适用于真实环境属于 N 个任意模型的情况下。该算法被证明在除 O(N log^2 N)步骤之外的大部分情况下都是最优的,并考虑了无限的情况。同时研究表明,紧致性是决定存在统一样本复杂度界限的关键标准,并为有限情况给出匹配的下界。
Aug, 2013
本文介绍了一种基于 Approximate linear programming (APL) 的算法 ——bilinear pi learning,在采样 oracle 下用于强化学习,并证明了它具有可扩展性、在线实时性和样本效率等多种优势。
Apr, 2018
本文提出一种基于一般价值函数逼近的强化学习算法,目的是建立一种没有对环境模型的显式假设的 RL 算法。如果价值函数能使用函数集合 F 近似,该算法将实现后悔界,为实际中使用的算法提供一个框架来证明其有效性。
May, 2020
通过给定的模型类,利用训练数据从学习未知对象的基础问题出发,我们引入了一个统一的框架,该框架允许将对象作为任意希尔伯特空间,具有一般类型的(随机)线性测量作为训练数据,以及一般类型的非线性模型类。我们为这个框架建立了一系列学习保证,并确保训练数据的数量与模型类的属性之间具有明确的关系,以确保接近最佳的泛化界限。通过这样做,我们还引入并发展了模型类关于采样操作的分布的变化的关键概念。为了展示该框架的多功能性,我们展示了它可以包容许多不同类型的感兴趣的已知问题,例如通过随机采样进行矩阵草图,使用各向同性向量的压缩感知,回归中的主动学习和使用生成模型的压缩感知。在所有情况下,我们展示了如何将已知结果变为我们的一般学习保证的直接推论。对于使用生成模型的压缩感知,我们还提出了一些近期结果的推广和改进。总之,我们的工作不仅引入了一种从各种数据类型中学习未知对象的统一方法,还确立了一系列统一的理论保证,巩固和改进了各种已知结果。
Nov, 2023
本文提出了第一个在基于线性动态和线性奖励时,具有多项式运行时间和样本复杂度的可证明的强化学习算法,该算法可以在不需要模拟器或其他假设的情况下实现,具有快速速度且与状态和动作数量无关。
Jul, 2019
本文论述了基于核心回归的 Q 学习在存在生成模型时的采样复杂度,提出了一种非参数 Q 学习算法,其样本复杂度优化到 ε 和核心复杂度的阶数,这是针对这种普遍模型的首个具有有限样本复杂度的结果。
Feb, 2023
本工作提出了一种非线性函数近似的新方法,该方法考虑了具有一般动作空间下的线性可嵌入性条件,设计了一种新的乐观后验取样策略 TS^3,并展示了一些最坏情况的样本复杂度保证。
Mar, 2022
强化学习算法在尺度递增和非结构化观测方面表现良好的方法,能够有效利用外部知识构建预测结构,并提供环境和算法供研究无结构观测向量和平面动作空间的缩放问题。
Nov, 2023