多任务强化学习在非马尔可夫决策过程中的可证明收益
本文探讨了多任务强化学习中一种范例,即在一个固定的环境中进行一系列任务的学习,介绍了一种共享结构模型,在状态-动作值空间中联合学习优化价值函数,从而提高数据效率并获得更健壮、更具潜力的可传递表征。
Mar, 2016
介绍了一种RL任务形式化的方法,通过简单的构造实现了不同任务设置的统一,包括状态转移折扣的概括;并拓展了标准学习构造和部分理论结果,提供了一个可理解和可靠的形式化框架来构建理论和简化算法使用和开发。
Sep, 2016
提出一种多任务学习的方法,通过元数据构建可组合且可解释的表示,从而改进多任务学习性能,并在一个包含50个不同机器人操作任务的具有挑战性的多任务基准Meta-World上实现了最先进的结果。
Feb, 2021
本文首次从理论上研究了使用多任务表示学习来提高勘探性无奖励多任务强化学习中多个任务的样本效率,并证明了它比单独学习每个任务更加样本高效。此外,我们还研究了下游强化学习,并表明与直接学习低秩模型有所不同的是,从上游学习的表示更有利于下游强化学习。
Jun, 2022
生成表示在强化学习中得到了稳步流行,由于其在提高样本效率和许多环境中的回报方面的潜力。本文对常见的辅助任务进行了比较,基于数百个使用最先进的离策略强化学习算法训练的代理程序。发现显示,辅助任务的表示学习对于维度和复杂度较高的环境是有利的,并且学习环境动态性胜于预测奖励。我们相信这些洞察将使其他研究人员能够更明智地决定如何利用表示学习解决他们的特定问题。
Oct, 2023
我们研究了在多任务强化学习中共享表示的益处,以实现深度神经网络的有效使用。我们利用从不同任务中学习、分享共同特性的假设,有助于推广知识,从而比学习单个任务更有效地进行特征提取。通过在广泛使用的强化学习基准上进行实证评估,我们提出了三种强化学习算法的多任务扩展,并证明了在样本效率和性能方面相较于单任务具有显著改进。
Jan, 2024
我们研究了离线强化学习中的表示转移问题,提出了一种算法来计算学习表示的点态不确定性度量,并通过扩展数据的数据依赖上界证明了针对目标任务的学习策略的次优性。我们的算法利用源任务的集体探索来解决现有离线算法在一些点上覆盖不足的问题,并在需要完全覆盖的富观测马尔可夫决策过程上进行了实证评估,展示了惩罚和量化学习表示中的不确定性的益处。
Feb, 2024
通过多任务表示学习的方式,我们将人类反馈强化学习 (RLHF) 问题建模为一种上下文二分问题,并假设存在一种共同线性表示。我们证明了考虑任务相关性,并为具有不同任务相关性的源任务分配不同样本数量可以降低多任务 RLHF 中的样本复杂度。此外,由于表示学习,目标任务的样本复杂度仅与潜在空间的维度成线性关系。
May, 2024
本文针对离线多任务强化学习中政策制定的挑战,提出了一种新的解决方案——和谐多任务决策变压器(HarmoDT)。通过在元学习框架内构建双层优化问题,该方法有效识别每个任务的最佳和谐参数子空间,从而提高统一政策的性能。此外,引入的群体变体(G-HarmoDT)通过基于梯度的信息聚类任务,避免了对任务标识符的依赖,展现了在不同设置下的显著性能提升。
Nov, 2024