多任务强化学习在非马尔可夫决策过程中的可证明收益
本文首次从理论上研究了使用多任务表示学习来提高勘探性无奖励多任务强化学习中多个任务的样本效率,并证明了它比单独学习每个任务更加样本高效。此外,我们还研究了下游强化学习,并表明与直接学习低秩模型有所不同的是,从上游学习的表示更有利于下游强化学习。
Jun, 2022
本文针对分布式多任务强化学习进行研究,提出了一种名为 DistMT-LSVI 的算法,可以在具有不同任务的环境中学习到针对所有任务的 ε- 最优策略,并通过理论和实验证实了该算法能够显著提高非分布式设置的样本复杂性。
Jul, 2023
本文研究了多任务表示学习在线性马尔可夫决策过程下的样本复杂度问题,并提出了 “最少激活特征稀缺” 指标,证明了多任务表示学习可以降低样本复杂度的理论依据,并发现自适应采样技术对于保证高样本效率至关重要。
Jun, 2021
本文提出一种在元强化学习中用于解决任务信息受限问题的方法,通过利用各种特权信息,分别学习策略和任务信念来解决部分可观测马尔可夫决策问题,从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。
May, 2019
本文探讨了多任务强化学习中一种范例,即在一个固定的环境中进行一系列任务的学习,介绍了一种共享结构模型,在状态 - 动作值空间中联合学习优化价值函数,从而提高数据效率并获得更健壮、更具潜力的可传递表征。
Mar, 2016
该研究论文提出了基于模型的强化学习模型(Model-based RL)的变种,称为广义隐参数马尔可夫决策过程(Generalized Hidden Parameter MDPs,GHP-MDPs),该模型结合了层次模型和潜变量,并且在多个任务与环境中实现了初步验证,具有高效的泛化和学习效率。
Feb, 2020
通过在多个任务上进行训练,可以证明多任务强化学习(MTRL)中基于共享结构的一般性策略共享算法具有适用于样本高效率的 myopic 探索设计,这是首次理论证明了 MTRL 的 “探索优势”。而多样性任务集的验证实验证明任务选择与自动课程学习相一致,在合成机器人控制环境的实验中改善了样本效率。
Mar, 2024
本文介绍了多视角强化学习(MVRL)模型,通过观察模型来解决决策问题,提出了两种求解方法:观察扩展和跨角度策略转移,实验证明这两种方法在处理多视角环境中具有较好的性能,减少样本复杂度和计算时间。
Oct, 2019
该研究提出了适用于预测状态表示(PSRs)的首个 UCB(Upper Confidence Bound)方法,具有计算效率、接近最优策略的最后迭代保证以及保证模型准确性等特点。
Jul, 2023