强化学习中的模型选择与通用函数逼近
本文提出了一个能够统一模型驱动和无模型驱动强化学习的通用框架,本框架中提出了一个可见证贝尔曼算法(ABC)类别,能够涵盖几乎所有文献中的马尔可夫决策过程(MDP)模型。结合该框架,本文提出了一个新的算法 OPtimization-based ExploRation with Approximation(OPERA),能够在多种 MDP 模型中达到最小遗憾的上限。
Sep, 2022
本文提出一种通用的函数类上界置信界算法 (GFUCB),并首次就多任务表示学习在一般函数类情况下对于赌博机和线性 MDP 的效果进行了理论验证和实验探究。
May, 2022
论文研究了缺失真实环境信息的强化学习问题,将鲁棒 MDP 框架扩展到无模型参数条件下的 RL 设置中,提出了三个具有鲁棒性的 Q-learning、SARSA 和 TD-learning 算法,并通过函数逼近扩展到大规模 MDPs,证明了其收敛性,并给出了保证局部最小的随机梯度下降算法。
Jun, 2017
本篇研究探讨了 Reinforcement Learning 在 Mean-Field Control 和 Mean-Field Game 中的统计效率,提出了基于 Optimistic Maximal Likelihood Estimation 的算法,并通过建立新概念 Mean-Field Model-Based Eluder Dimension 来解决一系列问题。同时,该研究结果展示了单智能体 RL、MFC 和 MFG 在样本效率方面存在根本差异。
May, 2023
我们研究了具有多项式逻辑(MNL)函数逼近的强化学习,其中马尔可夫决策过程(MDPs)的基础转移概率内核由具有状态和动作特性的未知转移核参数化。为了有非齐次状态转移的有限时段的情景,我们提出了具有频率后悔保证的随机探索算法,且具有可证明的高效性。
May, 2024
该研究针对强化学习中探索困境的问题,研究了无奖励的强化学习问题,提出了一种基于内核和神经函数逼近的乐观 value 迭代探索算法,证明了该方法可以在提供任意外界奖励的情况下,实现产生准最优策略或近似 Nash 均衡的复杂性为 O (1/epsilon^2) 的采样复杂度,是首个可以证明有效的应用内核和神经函数逼近的无奖励强化学习算法。
Oct, 2021
在实践中,决策者经常面临着不同的风险偏好和不确定性的情况,传统的风险中性强化学习框架无法很好地捕捉到这些情况。本文提出了一种利用泛化的效用函数来解决风险敏感的强化学习问题的方法,并设计了可实现的近似算法来求解该问题。
Nov, 2023
本篇论文探讨了稀有策略转换和批量学习这两个适应性约束下的通用顺序决策制定问题,并提出了通用的 Eluder 条件类以及一种最小化代价的通用算法,结果表明在各类函数类下都取得了相当好的效果。
Jun, 2023
本文提出一种基于一般价值函数逼近的强化学习算法,目的是建立一种没有对环境模型的显式假设的 RL 算法。如果价值函数能使用函数集合 F 近似,该算法将实现后悔界,为实际中使用的算法提供一个框架来证明其有效性。
May, 2020
本文提出了一种基于悲观主义的离线线性 MDP 算法,核心是使用参考函数进行不确定性分解并利用理论分析证明,该算法可以匹配性能下限并且该技术可以扩展到两人零和马尔可夫博弈,验证了算法的极小极大最优性。这是目前关于使用线性函数逼近的单智能体 MDPs 和 MGs 的第一个有效的极小极大最优算法。
May, 2022