可证明的基于模型非线性赌博机和强化学习：放弃乐观主义，拥抱虚拟曲率

Feb, 2021

可证明的基于模型非线性赌博机和强化学习：放弃乐观主义，拥抱虚拟曲率

Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve Optimism, Embrace Virtual Curvature

PDF

Kefan Dong, Jiaqi Yang, Tengyu Ma

TL;DR本文主要研究基于模型的赌博机和强化学习，针对非线性函数逼近，构建了一个可证明收敛至本地最大值的模型 ——ViOlin 算法，提高了样本效率，并在多个具体场景中给出了全局或本地损失的保证。

Abstract

This paper studies model-based bandit and reinforcement learning (RL) with →

model-based bandit reinforcement learning nonlinear function approximations virtual ascent with online model learner

发现论文，激发创造

VO$Q$L: 非线性函数逼近下无模型强化学习的最优遗憾

该研究旨在通过引入新算法 VOQL，改进理论边界，并实现对线性 MDP 等函数类的回归任务进行计算上的高效且统计优化的可行性。

Dec, 2022

非凸赌臂优化的最优梯度算法

本文研究非凸奖励的赌博机问题，提出了一种适用于一类具有非凸奖励函数的赌博机算法，通过统一的零阶优化范式达到了多项式设置下的最优速率，并在生成模型的 RL 中实现了算法的应用，从而取得了比之前方法更好的样本复杂度。

Jul, 2021

具有线性函数逼近的可证明高效的无模型约束强化学习

发展第一个无需模拟器的模型自由算法，它在大型系统中实现次线性遗憾和次线性约束违规，并且仅通过特征映射的维度依赖于状态空间。这是通过在标准 LSVI-UCB 算法中引入原始 - 对偶优化和用软最大策略替换标准贪婪选择来实现的。

Jun, 2022

超越方差减少：理解基线对策略优化的真正影响

本文针对这些技术因满足不了多步骤 MARKOV 决策过程的情况下的算法运转动态，证明了在赌博机和强化学习问题中，曲率和噪声不能充分解释这些问题，若算法收敛进行的选择不当，有可能无法打到期望的效果并进行理论论证。我们实验证明了这一理论发现，并将其扩展到多状态 MDPs 。

Aug, 2020

分布鲁棒离线强化学习的极小极大最优和计算高效算法

分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法，当面对大规模状态 - 动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法，通过对线性参数化的模型进行实现，探索了实例依赖次优性分析在鲁棒离线强化学习中的应用，并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。

Mar, 2024

模型基深度强化学习算法框架及其理论保证

本文提出了一种新的算法框架来设计和分析具有理论保证的基于模型的强化学习算法，该框架将不确定性原则扩展到非线性动态模型，其中模型 SLBO 在连续控制基准任务上实现了最先进的性能。

Jul, 2018

脱机强化学习的悲观非线性最小二乘值迭代

提出了一种用于非线性函数逼近的离线强化学习方法 —— 悲观非线性最小二乘值迭代 (PNLSVI)，它包括方差加权回归、方差估计子程序和基于悲观值迭代的规划阶段。该方法的遗憾界与函数类的复杂性紧密相关，并在针对线性函数逼近的情况下实现极小化的最优实例相关遗憾。在前期研究基础上，扩展到更一般的框架。

Oct, 2023

带有线性函数逼近的可证明有效强化学习

本文提出了第一个在基于线性动态和线性奖励时，具有多项式运行时间和样本复杂度的可证明的强化学习算法，该算法可以在不需要模拟器或其他假设的情况下实现，具有快速速度且与状态和动作数量无关。

Jul, 2019

利用悲观主义充分利用方差信息的线性表示下近似最优离线强化学习

利用线性模型表示形式研究离线强化学习的统计学限制，提出方差感知悲观值迭代算法，重新权重贝尔曼残差以提高离线学习界限。

Mar, 2022

上下文臂选择模型

介绍了在上下文密集应用中的模型选择问题及其解决方案，该方案适用于线性上下文密集应用，并在先验知识下达到了较低的后验概率。

Jun, 2019