线性 MDP 中多任务表示学习的能力

Jun, 2021

线性 MDP 中多任务表示学习的能力

On the Power of Multitask Representation Learning in Linear MDP

Rui Lu, Gao Huang, Simon S. Du

TL;DR本文研究了多任务表示学习在线性马尔可夫决策过程下的样本复杂度问题，并提出了 “最少激活特征稀缺” 指标，证明了多任务表示学习可以降低样本复杂度的理论依据，并发现自适应采样技术对于保证高样本效率至关重要。

Abstract

While multitask representation learning has become a popular approach in reinforcement learning (RL), theoretical understanding of why and when it works remains limited. This paper presents analyses for the statistical benefit of →

multitask representation learning linear mdp sub-optimality sample complexity adaptive sampling

发现论文，激发创造

多任务表示学习在强化学习中的证明收益

本文首次从理论上研究了使用多任务表示学习来提高勘探性无奖励多任务强化学习中多个任务的样本效率，并证明了它比单独学习每个任务更加样本高效。此外，我们还研究了下游强化学习，并表明与直接学习低秩模型有所不同的是，从上游学习的表示更有利于下游强化学习。

Jun, 2022

多任务表示学习的好处

讨论了一般从多个任务中学习数据表示的方法，并在多任务学习和学习到学习的两种情况下对此方法进行了理论上的证明。我们通过线性特征学习的特例对方法进行详细说明，并建立起多任务表示学习在独立任务学习上的理论优势的条件，特别是针对重要的半空间学习的例子，我们推导出了多任务表示学习在独立任务学习上的优势随样本数量、任务数量和固有数据维度的函数关系，其他潜在应用包括在再现核希尔伯特空间和多层深度网络中进行多任务特征学习。

May, 2015

强化学习中主动多任务学习的力量

通过多任务表示学习的方式，我们将人类反馈强化学习 (RLHF) 问题建模为一种上下文二分问题，并假设存在一种共同线性表示。我们证明了考虑任务相关性，并为具有不同任务相关性的源任务分配不同样本数量可以降低多任务 RLHF 中的样本复杂度。此外，由于表示学习，目标任务的样本复杂度仅与潜在空间的维度成线性关系。

May, 2024

通过对比表示学习使线性 MDPs 具有实用性

本研究提出了利用对比估计自动保证规范化的线性马尔可夫决策过程（MDPs）的可行性，实现了优秀的理论保证和实证性能，并引入了信心调整指数算法，实现了在面对不确定性时的高效和本质的乐观（或悲观）策略。

Jul, 2022

多任务强化学习在非马尔可夫决策过程中的可证明收益

多任务强化学习在马尔可夫决策过程中的应用揭示了共享潜在结构可以显著提高对样本的利用效率，并探讨了在部分可观察的 MDPs 和预测状态表示中这种好处是否能扩展。

Oct, 2023

每个任务非常少的样本的元学习

在这项研究中，我们研究了元学习和多任务学习的框架，探讨了在小样本情况下，通过少量任务和样本，能否学习到有效的共享表示，并利用该表示解决二分类问题。

Dec, 2023

低秩 MDP 中在线和离线 RL 的表示学习

本文研究了如何在低秩马尔可夫决策过程中进行紧凑的低维表示的表示学习，并致力于改进样本复杂度，并提出 REP-UCB 算法。