使用线性转移模型进行元学习 MDPs
研究了采用非参数高斯过程先验的 UCRL 和后验抽样算法的在线学习方法在未知的连续状态和动作的马尔可夫决策过程中最小化后悔的问题,在频率设置下,通过对核函数诱导的函数的再生核希尔伯特空间的真实 MDP 的转移和奖励函数的成员进行变异,研究了这些算法的后悔边界问题,并突出了转移和奖励函数对学习性能的影响。
May, 2018
我们提出使用基于反向传递最大似然估计的价值偏置方法来解决具有无限时间视角的线性马尔可夫决策过程,该方法在理论上证明具有几乎最优的遗憾,并且在计算上更高效,我们还发现线性马尔可夫决策过程和在线学习之间存在有趣的联系。
Oct, 2023
该研究论文提出了基于模型的强化学习模型(Model-based RL)的变种,称为广义隐参数马尔可夫决策过程(Generalized Hidden Parameter MDPs,GHP-MDPs),该模型结合了层次模型和潜变量,并且在多个任务与环境中实现了初步验证,具有高效的泛化和学习效率。
Feb, 2020
本文介绍了一种鲁棒的任意学习方法,该方法结合了贝叶斯推断模型和计算稳健策略的方法,以不确定性马尔科夫决策过程(uMDPs)为基础,并通过实验验证了该方法的有效性。
May, 2022
多任务强化学习在马尔可夫决策过程中的应用揭示了共享潜在结构可以显著提高对样本的利用效率,并探讨了在部分可观察的 MDPs 和预测状态表示中这种好处是否能扩展。
Oct, 2023
本研究提出了一种基于权重最小二乘值迭代的非稳态线性马尔可夫决策过程(MDP)最优模型 - free 算法 OPT-WLSVI,使用指数权重平滑地遗忘过去的数据,与先前的研究相比解决了遗忘策略上的技术差距,并分析了与最佳策略竞争的总遗憾是有上限的。
Oct, 2020
本文提出了基于不确定性鲁棒贝尔曼方程(URBE)的 DQN-URBE 算法,通过贝叶斯方法来学习鲁棒马尔可夫决策过程的参数,并能够快速调整参数以适应系统行为的变化,在保持鲁棒性的同时获得更少保守的解。
May, 2019
研究在随机线性赌博任务中的元学习过程,通过从任务分布中采样一类赌博任务来选择平均表现良好的学习算法,该文章考虑了实现 OFUL 算法的一类赌博算法,其中正则化是一个到偏置向量的平方欧几里得距离。我们首先研究了 OFUL 算法偏置的优点,并提出两种估计学习过程中偏差的策略。当任务数增加且任务分布的方差很小时,理论和实验都表明,我们的策略在学习隔离任务方面具有显着优势。
May, 2020