Lipschitz 历练强化学习

AAAIJan, 2020

Lipschitz Lifelong Reinforcement Learning

Erwan Lecarpentier, David Abel, Kavosh Asadi, Yuu Jinnai, Emmanuel Rachelson...

TL;DR本文探讨了在面对一系列的强化学习任务时知识传递的问题，提出了一种近似的马尔科夫决策过程的优化值函数的方法，通过此方法实现了个体在面临新任务时的无负面经验的学习。通过实验验证了此方法在延续学习中的效果。

Abstract

We consider the problem of knowledge transfer when an agent is facing a series of reinforcement learning (RL) tasks. We introduce a novel metric between →

knowledge transfer reinforcement learning markov decision processes pac-mdp lifelong learning

发现论文，激发创造

模型驱动增强学习中的 Lipschitz 连续性

本文研究了 Lipschitz 连续模型在基于模型的强化学习中的影响。我们提供了一个新的多步预测误差界限，用 Wasserstein 度量来量化误差。我们证明了 Lipschitz 模型所引起的价值函数估计误差界限，并表明估计值函数本身是 Lipschitz 的。最后，我们提供了实证结果，表明控制神经网络模型的 Lipschitz 常数的好处。

Apr, 2018

具有连续动作空间的低秩马尔可夫决策进程

在这项研究中，我们研究了将低秩马尔可夫决策过程（MDPs）的方法扩展到具有连续动作的情况，并探索了多种具体方法。我们以 FLAMBE 算法作为案例研究，表明在动作允许连续的情况下，得到了类似的 PAC 界限。

Nov, 2023

利用强化学习在多智能体马尔科夫决策过程中实现公平

本文提出了一种基于强化学习和在线凸优化的方法来实现多智能体系统中的公平性，在保证植树的情况下为不同智能体提供公平奖励。该方法能够在未知环境中实现公平，并在实验中得到了验证。

Jun, 2023

Lipschitz 可配置马尔可夫决策过程的性能改进界限

研究了满足 Lipschitz 连续性的 Configurable Markov Decision Processes（Conf-MDPs）的性能改进下界。

Feb, 2024

从多个 MDPs 转移

本文研究利用源任务采集的经验来加速强化学习算法的传递强化学习方法，介绍了在源任务与目标任务之间相似度的基础上适应转移过程的新算法，并在一个连续链问题中报告了描绘性实验结果。

Aug, 2011

强化学习中的计算统计差距

本文针对强化学习中的大状态空间问题，研究使用函数逼近的强化学习方法，并提出了寻找高效率算法的方案，同时探讨了计算难度与统计问题之间的关系。

Feb, 2022

非参数通用强化学习

本文提出了在非 Markovian、非 ergodic 且只部分可观察的环境下进行强化学习的问题。作者建立了贝叶斯强化学习代理的负面结果，并证明 Thompson 采样在随机环境中是渐进最优的。此外，作者构建了一个大但可计算的类，展示了基于 Thompson 采样的代理在这个类中收敛于任意未知可计算多智能体环境中的纳什均衡。

Nov, 2016

深度 MDP：学习连续潜空间模型以进行表征学习

介绍了一种参数化潜变量空间模型 DeepMDP，通过学习奖励和下一个潜变量状态的预测来训练模型，以提高强化学习中连续状态的表示效果，并证明其在 Atari 2600 游戏中可以明显提高模型性能。

Jun, 2019

模型不匹配下的强化学习

论文研究了缺失真实环境信息的强化学习问题，将鲁棒 MDP 框架扩展到无模型参数条件下的 RL 设置中，提出了三个具有鲁棒性的 Q-learning、SARSA 和 TD-learning 算法，并通过函数逼近扩展到大规模 MDPs，证明了其收敛性，并给出了保证局部最小的随机梯度下降算法。

Jun, 2017

基于 LTL 规约的样本高效无模型强化学习及最优性保证

本研究提出一种基于强化学习的模型自由优化方法来学习行为策略，以最大化符合给定线性时态逻辑规范的概率。通过采用新型的产品 MDP、奖励结构和折扣机制，在各种 MDP 环境中进行实验，证明了其具有改进的样本效率和最优策略收敛性。

May, 2023

Lipschitz 历练 强化学习

Lipschitz 历练强化学习