提出在给定特征空间中嵌入转移函数的二人零和随机博弈中,通过采样逼近纳什均衡策略的二人 Q-learning 算法,已证明可使用与特征数线性相关的样本大小找到 ε 最优策略;进一步改进算法的样本效率,采用方差约减、单调性保持和双侧策略逼近等技术来加速算法,证明了该算法最多只需要使用 O~(K/(ε^2 (1-γ)^4)) 个样本即可以高概率找到 ε 最优策略,其中 K 是特征数,γ 是折扣系数;算法的样本、时间和空间复杂度与游戏的原始维度无关。
Jun, 2019
通过生成采样模型计算马尔可夫决策过程问题的最优策略及其样本复杂度分析。
Jun, 2018
本文提出了一种无模型的算法来学习具有折扣因子的马尔可夫决策过程中的政策,该算法的成功概率为 (1-p),且具有样本复杂度 O (SALn (1/p)/(ε^2 (1-γ)^3)),其中 S 是状态数,A 是行动数,γ 是折扣因子,ε 是一个近似阈值
Jun, 2020
为了解决两个玩家零和马尔可夫博弈问题,在多智能体强化学习的理论研究中引起了越来越多的关注。通过提出一种无模型的基于阶段的 Q 学习算法,我们展示了该算法能够与最佳的有模型算法达到相同的样本复杂度,进而首次证明了无模型算法在与模型有关的 $H$ 上的依赖性上能够达到相同的最优性。
Aug, 2023
我们提出了一种两时间尺度 Q 学习算法,采用函数逼近,以找到两个玩家之间公平、收敛、理性且对称的纳什均衡。我们的方法在线性函数逼近的特殊情况下,建立了无限采样边界,从而对这类随机博弈中收敛到纳什均衡所需的样本量提供了多项式的上界。
Dec, 2023
本文探讨了多人博弈中学习的样本复杂性问题,并设计算法在样本复杂度多项式级别下,求解多人一般和马尔可夫博弈的粗略关联均衡和关联均衡,同时提出了针对特定条件下的学习算法,显著提高了现有算法的效率和精度。
Oct, 2021
本文使用生成模型证明了在马尔可夫决策过程中,基于值迭代算法的样本复杂度 PAC 上限为 O (Nlog (N/δ)/((1-γ)³ε²)),其中 N 为状态 - 动作对的数量,γ 为折扣因子,ε 表示动作价值函数的 ε- 最优估计,δ 为概率。同时证明了在任何强化学习算法中,基于每个状态 - 动作对估计最优动作值函数的样本复杂度下限为 Θ(Nlog (N/δ)/((1-γ)³ε²)),该上限和下限在 N,ε、δ、1/(1-γ) 方面匹配。
Jun, 2012
本文研究 Q-learning 同步和异步情况下的样本复杂性和子优秀性,并展示在异步情况下的样本复杂性更强,Q-learning 算法是严格亚最优的。
Feb, 2021
提出一种新的随机线性规划算法,利用价值 - 策略对偶和二叉树数据结构,自适应地采样状态 - 动作 - 状态转移,并进行指数原始 - 对偶更新,从而以几乎线性的运行时间在最坏情况下找到一个 ε- 最优策略。当马尔可夫决策过程是遍历的并且以某些特殊的数据格式指定时,该算法使用线性的运行时间,在状态 - 动作对的总数中是次线性的,为解决随机动态规划问题提供了新的途径和复杂性基准。
Apr, 2017
本文主要研究带有参数化的一般函数类的两人零和有限时间跨度马尔科夫博弈,在研究中提出了可行的算法,包括基于模型的算法和无模型算法,并且在状态 - 动作对数 $d$ 线性特征的情况下取得了比现有算法更好的效果,同时提出了最小极小规模的模型维度等概念来解决抽样复杂度的问题,最终得出了在模型上算法抽样复杂度可以通过将见证人等级推广到马尔科夫博弈来边界化。
Jul, 2021