多任务强化学习中的共享表示学习
本研究提出了一种meta-RL方法,通过捕捉不同任务之间的共享信息和快速抽象任务特定信息的能力,使用任务编码器生成任务嵌入并在所有任务之间共享策略,实现在训练和新任务上的更好学习能力和更高回报率。
May, 2019
提出一种多任务学习的方法,通过元数据构建可组合且可解释的表示,从而改进多任务学习性能,并在一个包含50个不同机器人操作任务的具有挑战性的多任务基准Meta-World上实现了最先进的结果。
Feb, 2021
该论文探讨了如何使用层次强化学习来解决长期任务中存在的性能问题,并提出了一种名为Value Function Spaces的状态抽象方法,通过利用对应于每个低层技能的价值函数来表示任务相关信息,从而在迷宫解决和机器人操纵等任务中提高了性能及零样本泛化能力。
Nov, 2021
本文首次从理论上研究了使用多任务表示学习来提高勘探性无奖励多任务强化学习中多个任务的样本效率,并证明了它比单独学习每个任务更加样本高效。此外,我们还研究了下游强化学习,并表明与直接学习低秩模型有所不同的是,从上游学习的表示更有利于下游强化学习。
Jun, 2022
多任务强化学习在马尔可夫决策过程中的应用揭示了共享潜在结构可以显著提高对样本的利用效率,并探讨了在部分可观察的MDPs和预测状态表示中这种好处是否能扩展。
Oct, 2023
多任务强化学习(MTRL)通过共享表示,来克服代理程序普适性技能泛化的长期问题,本文介绍了在MTRL中学习共享多样性表示的一种新方法,称为MOORE,它通过专家混合生成的表示的共享子空间来促进任务之间的多样性,研究表明MOORE在MiniGrid和MetaWorld两个基准测试中超过了其他相关基线,成为MetaWorld领域的最新技术成果。
Nov, 2023
我们研究了在多任务强化学习中共享表示的益处,以实现深度神经网络的有效使用。我们利用从不同任务中学习、分享共同特性的假设,有助于推广知识,从而比学习单个任务更有效地进行特征提取。通过在广泛使用的强化学习基准上进行实证评估,我们提出了三种强化学习算法的多任务扩展,并证明了在样本效率和性能方面相较于单任务具有显著改进。
Jan, 2024
我们研究了离线强化学习中的表示转移问题,提出了一种算法来计算学习表示的点态不确定性度量,并通过扩展数据的数据依赖上界证明了针对目标任务的学习策略的次优性。我们的算法利用源任务的集体探索来解决现有离线算法在一些点上覆盖不足的问题,并在需要完全覆盖的富观测马尔可夫决策过程上进行了实证评估,展示了惩罚和量化学习表示中的不确定性的益处。
Feb, 2024
通过多任务表示学习的方式,我们将人类反馈强化学习 (RLHF) 问题建模为一种上下文二分问题,并假设存在一种共同线性表示。我们证明了考虑任务相关性,并为具有不同任务相关性的源任务分配不同样本数量可以降低多任务 RLHF 中的样本复杂度。此外,由于表示学习,目标任务的样本复杂度仅与潜在空间的维度成线性关系。
May, 2024