Lipschitz 历练 强化学习
本文研究了 Lipschitz 连续模型在基于模型的强化学习中的影响。我们提供了一个新的多步预测误差界限,用 Wasserstein 度量来量化误差。我们证明了 Lipschitz 模型所引起的价值函数估计误差界限,并表明估计值函数本身是 Lipschitz 的。最后,我们提供了实证结果,表明控制神经网络模型的 Lipschitz 常数的好处。
Apr, 2018
在这项研究中,我们研究了将低秩马尔可夫决策过程(MDPs)的方法扩展到具有连续动作的情况,并探索了多种具体方法。我们以 FLAMBE 算法作为案例研究,表明在动作允许连续的情况下,得到了类似的 PAC 界限。
Nov, 2023
本文提出了一种基于强化学习和在线凸优化的方法来实现多智能体系统中的公平性,在保证植树的情况下为不同智能体提供公平奖励。该方法能够在未知环境中实现公平,并在实验中得到了验证。
Jun, 2023
研究了满足 Lipschitz 连续性的 Configurable Markov Decision Processes(Conf-MDPs)的性能改进下界。
Feb, 2024
本文研究利用源任务采集的经验来加速强化学习算法的传递强化学习方法,介绍了在源任务与目标任务之间相似度的基础上适应转移过程的新算法,并在一个连续链问题中报告了描绘性实验结果。
Aug, 2011
本文提出了在非 Markovian、非 ergodic 且只部分可观察的环境下进行强化学习的问题。作者建立了贝叶斯强化学习代理的负面结果,并证明 Thompson 采样在随机环境中是渐进最优的。此外,作者构建了一个大但可计算的类,展示了基于 Thompson 采样的代理在这个类中收敛于任意未知可计算多智能体环境中的纳什均衡。
Nov, 2016
介绍了一种参数化潜变量空间模型 DeepMDP,通过学习奖励和下一个潜变量状态的预测来训练模型,以提高强化学习中连续状态的表示效果,并证明其在 Atari 2600 游戏中可以明显提高模型性能。
Jun, 2019
论文研究了缺失真实环境信息的强化学习问题,将鲁棒 MDP 框架扩展到无模型参数条件下的 RL 设置中,提出了三个具有鲁棒性的 Q-learning、SARSA 和 TD-learning 算法,并通过函数逼近扩展到大规模 MDPs,证明了其收敛性,并给出了保证局部最小的随机梯度下降算法。
Jun, 2017
本研究提出一种基于强化学习的模型自由优化方法来学习行为策略,以最大化符合给定线性时态逻辑规范的概率。通过采用新型的产品 MDP、奖励结构和折扣机制,在各种 MDP 环境中进行实验,证明了其具有改进的样本效率和最优策略收敛性。
May, 2023