线性 MDP 中多任务表示学习的能力
本文首次从理论上研究了使用多任务表示学习来提高勘探性无奖励多任务强化学习中多个任务的样本效率,并证明了它比单独学习每个任务更加样本高效。此外,我们还研究了下游强化学习,并表明与直接学习低秩模型有所不同的是,从上游学习的表示更有利于下游强化学习。
Jun, 2022
讨论了一般从多个任务中学习数据表示的方法,并在多任务学习和学习到学习的两种情况下对此方法进行了理论上的证明。我们通过线性特征学习的特例对方法进行详细说明,并建立起多任务表示学习在独立任务学习上的理论优势的条件,特别是针对重要的半空间学习的例子,我们推导出了多任务表示学习在独立任务学习上的优势随样本数量、任务数量和固有数据维度的函数关系,其他潜在应用包括在再现核希尔伯特空间和多层深度网络中进行多任务特征学习。
May, 2015
通过多任务表示学习的方式,我们将人类反馈强化学习 (RLHF) 问题建模为一种上下文二分问题,并假设存在一种共同线性表示。我们证明了考虑任务相关性,并为具有不同任务相关性的源任务分配不同样本数量可以降低多任务 RLHF 中的样本复杂度。此外,由于表示学习,目标任务的样本复杂度仅与潜在空间的维度成线性关系。
May, 2024
本研究提出了利用对比估计自动保证规范化的线性马尔可夫决策过程(MDPs)的可行性,实现了优秀的理论保证和实证性能,并引入了信心调整指数算法,实现了在面对不确定性时的高效和本质的乐观(或悲观)策略。
Jul, 2022
多任务强化学习在马尔可夫决策过程中的应用揭示了共享潜在结构可以显著提高对样本的利用效率,并探讨了在部分可观察的 MDPs 和预测状态表示中这种好处是否能扩展。
Oct, 2023
本文提出了一种名为 ReLEX 的算法,旨在通过学习表示和执行探索操作,提高代表低秩 MDPs 类的效率,该算法在方法上始终不劣于最先进的无表示学习算法,并且在表示能够对整个状态 - 动作空间具有一定的 “覆盖性” 时会严格提高样本效率。
Jun, 2021
本文提出一种通用的函数类上界置信界算法 (GFUCB),并首次就多任务表示学习在一般函数类情况下对于赌博机和线性 MDP 的效果进行了理论验证和实验探究。
May, 2022
提出一种基于 MLMDP 框架的新算法,使用非负矩阵分解来发现领域中的最小任务基础集,该技术学习了各种领域的直观任务分解,包括具有单个目标状态和分布式首选状态的子任务,并具有不同的层次分解结构,同时可以简单地迭代以获得更深的层次分解。
Aug, 2017