线性马尔科夫决策过程的近最小值最大化强化学习
开发多种学习用于Markov Decision Processes的无限时间平均奖励设置和线性函数逼近的算法,使用乐观原则和假设MDP具有线性结构,提出具有优化的计算效率的算法,并展开了详细的分析,改进了现有最佳结果。
Jul, 2020
这篇研究采用线性函数逼近的方法来应用强化学习在马尔科夫决策过程中,通过衡量合适的指标来保证奖励和状态转移函数变化的幅度不超过一定的上限,提出了两种最优算法:LSVI-UCB-Restart和Ada-LSVI-UCB-Restart。该研究还为非平稳MDP和线性MDP提供了动态遗憾分析的理论支持,并进行了有效性验证。
Oct, 2020
本研究提出了一种基于权重最小二乘值迭代的非稳态线性马尔可夫决策过程(MDP)最优模型-free算法 OPT-WLSVI,使用指数权重平滑地遗忘过去的数据,与先前的研究相比解决了遗忘策略上的技术差距,并分析了与最佳策略竞争的总遗憾是有上限的。
Oct, 2020
本文研究了具有线性函数逼近的增强学习,其中马尔科夫决策过程(MDP)的潜在转移概率核心为线性混合模型,并且学习代理具有单个基础核函数的积分或采样神谕的访问。 基于我们提出的新的Bernstein型自归一类化不等式,我们提出了一种名为$ ext{UCRL-VTR}^{+}$的新的计算有效算法,以进行具有线性函数逼近的线性混合MDPs的无折扣情况。 我们还提出了新的算法$ ext{UCLK}^{+}$,适用于同一类MDP的折扣情况,这两种算法分别在最小化最大性上达到了近乎最小值,是线性函数逼近RL的第一篇计算有效性,近乎最小值的论文。
Dec, 2020
本文研究含对手的强化学习中马尔科夫决策过程的学习问题,并提出了一种乐观的策略优化算法POWERS,该算法可以达到近似最小化的最优遗憾,并证明了该算法的上下界。
Feb, 2021
研究使用线性函数近似的强化学习,其中转移概率和奖励函数是关于特征映射phi(s,a)的线性函数。提出了新的计算高效算法LSVI-UCB+,其在Bernstein类型的探索奖励的帮助下,具有常数估计的L2误差,并且特别适用于情节不同整体线性马尔可夫决策过程,证明了LSVI-UCB+的统计结果并且在理论上是最优秀的。
Jun, 2022
我们提出使用基于反向传递最大似然估计的价值偏置方法来解决具有无限时间视角的线性马尔可夫决策过程,该方法在理论上证明具有几乎最优的遗憾,并且在计算上更高效,我们还发现线性马尔可夫决策过程和在线学习之间存在有趣的联系。
Oct, 2023
本研究解决了在大规模或无限状态和动作空间中设计高效样本和计算合理的强化学习算法的难题。我们提出了一种新算法,能够在给定特征映射下高效寻找近似最优策略,并在问题参数上呈多项式级别使用样本和成本敏感分类oracle。这一算法显著提升了现有方法的效能,尤其在处理无限状态和动作环境时,具有重要应用潜力。
Sep, 2024
本文提出了一种计算上可行的算法,用于学习无限时间平均奖励的线性马尔可夫决策过程(MDP)和线性混合MDP,满足贝尔曼最优性条件。该算法在保证计算效率的同时,对于线性MDP实现了已知的最佳后悔界限,具有显著的理论和实践意义。
Sep, 2024