使用线性转移模型进行元学习 MDPs

Jan, 2022

使用线性转移模型进行元学习 MDPs

Meta Learning MDPs with Linear Transition Models

Robert Müller, Aldo Pacchiano

TL;DR研究了使用线性转移模型于 MDP 中的元学习，并提出了 BUC-MatrixRL 算法以显著提高高偏差低方差任务分布的转移后悔问题。

Abstract

We study meta-learning in markov decision processes (MDP) with linear transition models in the undiscounted episodic setting. Under a task sharedness metric based on model proximity we study →

meta-learning markov decision processes linear transition models task families buc-matrixrl

发现论文，激发创造

核化马尔科夫决策过程中的在线学习

研究了采用非参数高斯过程先验的 UCRL 和后验抽样算法的在线学习方法在未知的连续状态和动作的马尔可夫决策过程中最小化后悔的问题，在频率设置下，通过对核函数诱导的函数的再生核希尔伯特空间的真实 MDP 的转移和奖励函数的成员进行变异，研究了这些算法的后悔边界问题，并突出了转移和奖励函数对学习性能的影响。

May, 2018

基于价值偏差的最大似然估计在折扣线性 MDPs 中的模型驱动强化学习

我们提出使用基于反向传递最大似然估计的价值偏置方法来解决具有无限时间视角的线性马尔可夫决策过程，该方法在理论上证明具有几乎最优的遗憾，并且在计算上更高效，我们还发现线性马尔可夫决策过程和在线学习之间存在有趣的联系。

Oct, 2023

通用隐含参数 MDPs：在少数试验中可转移的基于模型的强化学习

该研究论文提出了基于模型的强化学习模型（Model-based RL）的变种，称为广义隐参数马尔可夫决策过程（Generalized Hidden Parameter MDPs，GHP-MDPs），该模型结合了层次模型和潜变量，并且在多个任务与环境中实现了初步验证，具有高效的泛化和学习效率。

Feb, 2020

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

多任务强化学习在非马尔可夫决策过程中的可证明收益

多任务强化学习在马尔可夫决策过程中的应用揭示了共享潜在结构可以显著提高对样本的利用效率，并探讨了在部分可观察的 MDPs 和预测状态表示中这种好处是否能扩展。

Oct, 2023

鲁棒马尔可夫决策过程：超越矩形假设

本论文利用因子模型处理 Markov 决策过程中的参数不确定性问题，提出了一种鲁棒性方法来有效计算最优策略，并在相关领域进行了实验研究。

Nov, 2018

非定常线性马尔可夫决策过程中的高效学习

本研究提出了一种基于权重最小二乘值迭代的非稳态线性马尔可夫决策过程（MDP）最优模型 - free 算法 OPT-WLSVI，使用指数权重平滑地遗忘过去的数据，与先前的研究相比解决了遗忘策略上的技术差距，并分析了与最佳策略竞争的总遗憾是有上限的。

Oct, 2020

稳健强化学习的贝叶斯方法

本文提出了基于不确定性鲁棒贝尔曼方程（URBE）的 DQN-URBE 算法，通过贝叶斯方法来学习鲁棒马尔可夫决策过程的参数，并能够快速调整参数以适应系统行为的变化，在保持鲁棒性的同时获得更少保守的解。

May, 2019

周期性 MDP 中的在线强化学习

本文研究了周期马尔可夫决策过程中的学习问题，提出了一种基于上界置信区间的强化学习算法，证明了该算法的性能，在理论和经验层面上都表现出良好的效果。

Mar, 2023

随机线性赌器元学习

研究在随机线性赌博任务中的元学习过程，通过从任务分布中采样一类赌博任务来选择平均表现良好的学习算法，该文章考虑了实现 OFUL 算法的一类赌博算法，其中正则化是一个到偏置向量的平方欧几里得距离。我们首先研究了 OFUL 算法偏置的优点，并提出两种估计学习过程中偏差的策略。当任务数增加且任务分布的方差很小时，理论和实验都表明，我们的策略在学习隔离任务方面具有显着优势。

May, 2020