马尔科夫博弈中的离线学习和一般函数逼近
本研究针对具有线性结构的两人零和有限马尔可夫博弈提出了一种基于乐观价值迭代的增强学习算法,该算法通过构建价值函数的上下置信区间,并用 Coarse Correlated Equilibrium 求解泛化和纳什均衡问题,实现了性能的总时间平方根复杂度的上限。
Feb, 2020
本文提出了一种基于悲观主义的离线线性 MDP 算法,核心是使用参考函数进行不确定性分解并利用理论分析证明,该算法可以匹配性能下限并且该技术可以扩展到两人零和马尔可夫博弈,验证了算法的极小极大最优性。这是目前关于使用线性函数逼近的单智能体 MDPs 和 MGs 的第一个有效的极小极大最优算法。
May, 2022
本文基于边缘化重要性取样 (RL) 提出了一种新的离线强化学习算法,以实现一般函数逼近和单策略可集中性的统计最优性,无需不确定性量化,并且通过应用增广 Lagrange 方法,保证某些占用有效性约束的近似满足。与以往力图通过行为规则化等方法引入额外保守性的算法不同,本文方法证明消除了这种需求,并将规则化器重新解释为 “占用有效性的执行者”,而不是 “保守性的促进者”。
Nov, 2022
我们提出了一种新模型独立线性马尔可夫游戏,用于具有大状态空间和大量代理的多代理强化学习,该模型具有独立线性函数逼近,并为其设计了新算法以学习 Markov 粗糙关联均衡和 Markov 相关均衡,其采样复杂度只随着每个代理自己的函数类复杂度以多项式方式扩展,从而打破了多代理的诅咒。
Feb, 2023
本论文提出了一种基于优化原则的在线学习算法,通过在函数空间中最小化对偶差来寻找 Nash 均衡点,在马尔科夫博弈中进行非线性函数逼近,解决了高维函数空间中的探索问题,并扩展了几种算法,其中一个可以实现更紧的遗憾上界,另一个可以应用于神经网络函数逼近的模型错误说明。
Aug, 2022
分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法,当面对大规模状态 - 动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法,通过对线性参数化的模型进行实现,探索了实例依赖次优性分析在鲁棒离线强化学习中的应用,并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。
Mar, 2024
学习大状态和动作空间中的均衡、克服多项机构所带来的麻烦是一个具有挑战性的问题,最近的研究尝试通过使用独立的线性函数类来逼近每个代理的边际 Q 值来解决这个问题。我们介绍了一种新算法 Lin-Confident-FTRL,用于学习具有本地对模拟器访问能力的粗粒度相关均衡(CCE),并具有证明最优准确性界限 O(ϵ^-2)的可扩展性和抛弃了对动作空间的线性依赖。此外,我们对 Linear-Confident-FTRL 的分析广泛地推广了单机器人局部规划文献中的虚拟策略迭代技术,从而在假设对模拟器具有随机访问权时得到了一个新的计算有效的算法,并获得了更紧凑的样本复杂度界限。
Mar, 2024
本文提出了一种新的基于离线数据的强化学习算法,该算法拥有通用函数逼近能力、单策略集中性和统计效率,并且只需要极少的假设前提和计算稳定性。
Feb, 2023
简而言之,本文提出了一种针对广义和博弈的、分散、计算高效的算法,其保证所有代理都使用时可以提供次线性遗憾保证,并且不需要代理之间的通信。该算法的主要观察结果是,通过马尔可夫游戏的在线学习基本上可以归结为一种加权遗憾最小化。
Jul, 2022
本文研究提供确凿的样本高效离线强化学习算法需要什么样的可表示和分布条件。研究发现,即使有到所有策略的真实价值函数都线性映射到一组给定的特征,并且有关于策略的所有特征的良好聚集离线数据(在强谱条件下),任何算法仍然需要指数级的离线样本数量来估计任何给定策略的价值。
Oct, 2020