- 综合先前策略解决新任务
多任务强化学习通过提供一种常见的形式化方法 IKH,聚焦于多任务强化学习的模块化和组合性,以增强智能体在动态环境中的学习和适应能力。
- 多任务强化学习中的共享独特特征及任务感知优先采样
在多任务强化学习领域,我们观察到当前最先进的方法存在性能不平衡问题。为解决这一问题,我们提出了一种名为 STARS 的新的有效方法,它包含两种新颖的策略:共享独特特征提取器和任务感知的优先采样。经过在主流的 Meta-World 基准测试中 - 用于有约束多任务强化学习的自然策略梯度和演员评论家方法
多任务强化学习研究了多个任务同时有效解决的单一策略的约束形式,在中心化和去中心化设置下分别考虑了服务器和代理之间的全局约束问题,并提出了基于原始 - 对偶算法和基于采样的演员 - 评论家算法来解决这一问题,并研究了线性函数逼近的泛化扩展。
- 通过任务特定的动作修正实现高效多任务强化学习
多任务强化学习中,通过引入任务特定的动作修正方法可以提高机器人的泛化能力,解决任务之间的冲突和负面干扰问题。该方法通过将策略学习分解为共享策略和动作修正策略,并引入稀疏奖励和拉格朗日方法,有效解决多目标多任务强化学习问题,实验结果显示其在样 - 双向渐进神经网络与情节回报进展用于新兴任务排序和机器人技能迁移
人脑和行为为机器人学习和控制方法提供了灵感,该研究介绍了一种新的多任务强化学习框架 ERP-BPNN,它具有人类类似的交替学习方式,可实现任务间的双向技能转移,并在达到任务中与传统方法相比,对于形态不同的机器人在到达目标的距离、路径直线性等 - 多任务深度强化学习中的知识共享
我们研究了在多任务强化学习中共享表示的益处,以实现深度神经网络的有效使用。我们利用从不同任务中学习、分享共同特性的假设,有助于推广知识,从而比学习单个任务更有效地进行特征提取。通过在广泛使用的强化学习基准上进行实证评估,我们提出了三种强化学 - AAAI不是所有任务都一样困难:具有动态深度路由的多任务强化学习
该研究通过动态深度路由(D2R)框架实现多任务强化学习,其中通过绕过中间模块灵活选择不同数量的模块来提高数据效率并解决不同策略的路由路径问题。该框架进一步引入 ResRouting 方法解决行为策略和目标策略在离策略训练过程中的差异路由路径 - 少即是多 —— 多任务强化学习的调度器 / 执行器原则
通过引入调度员与执行员原则,以及设计原则和结构的改变,可以改善泛化性能并显著提高数据效率。
- 混合正交专家的多任务强化学习
多任务强化学习 (MTRL) 通过共享表示,来克服代理程序普适性技能泛化的长期问题,本文介绍了在 MTRL 中学习共享多样性表示的一种新方法,称为 MOORE,它通过专家混合生成的表示的共享子空间来促进任务之间的多样性,研究表明 MOORE - 具有时间注意力的对比模块的多任务强化学习
本文提出了一种称为对比模块与时间注意力(CMTA)的方法,通过对比学习同时结合细粒度的共享模块和时间注意力来解决现有多任务强化学习方法所存在的限制。CMTA 方法能够在任务内减少负迁移,提高模块化方法的泛化能力和性能,在 Meta-Worl - 增强机器人操作:在元世界中利用多任务强化学习和单生命强化学习的力量
该研究旨在用多任务软演员 - 评论家算法(MT-SAC)培训机械臂,以使其能够在 Meta World 环境中成功执行七项不同任务。接下来,训练模型将作为单一生命强化学习算法的先前数据,并通过在各种目标位置(新颖位置)进行测试来评估 MT- - 多任务强化学习在非马尔可夫决策过程中的可证明收益
多任务强化学习在马尔可夫决策过程中的应用揭示了共享潜在结构可以显著提高对样本的利用效率,并探讨了在部分可观察的 MDPs 和预测状态表示中这种好处是否能扩展。
- 多任务强化学习中的知识精炼优化传递
通过使用 Sinkhorn 映射来替换 Kullback-Leibler 散度,进一步提高多任务强化学习的数据效率,并通过实验证明新增的基于最优传输的奖励可以加速智能体的学习过程,优于多任务学习中的几个基准模型。
- 多任务强化学习的预测任务特定层
通过引入新的架构 Projected Task-Specific Layers (PTSL),该论文通过使用特定任务层进行共享和可变任务信息的密集修正,从而成功地在多任务强化学习中解决了任务间的负面干扰,并在 Meta-World 的 MT - LARG,基于语言的自动奖励和目标生成
本研究介绍了一个基于自然语言生成奖励和目标函数的机器人操作自动化训练方法,运用 Goal-conditioned 和 MTRL 技术,使用 Large Language Models,针对机器人操作的可扩展性问题进行了实验验证。
- 具有个性化的元生成流网络用于任务特定的适应性
本文提出了 pGFlowMeta 算法,结合了任务特定的个性化策略与元策略,并在稀疏奖励和异质性环节上实现了性能提升,理论分析表明其算法收敛速度是次线性的,而广泛的实验表明所提出的算法在离散环境中优于现有的强化学习算法。
- 通过上下文调节实现通用形态控制
该论文提出了一种分层架构,通过上下文调节来更好地模拟机器人控制策略对其形态上下文的依赖关系,其中包括两个关键子模块:(1)使用超网络生成依赖形态的控制参数;(2)提出了一种形态依赖性的注意机制来调节机器人不同肢体之间的交互。实验结果表明,该 - 通过多任务强化学习实现稳健和多功能的双足跳跃控制
本文介绍了一种多任务强化学习框架,以训练扭矩控制双足机器人在现实世界中执行各种跳跃任务,通过不同的训练阶段和多样化的情境探索,最终实现了高鲁棒性的多任务策略,并为 Cassie 双足机器人在现实世界中完成各种具有挑战性的跳跃任务提供了支持。
- 通过选择性行为共享实现高效多任务强化学习
多任务强化学习中,通过共享行为可大幅提高探索效率和最终性能
- 通过压缩学习选项
研究多任务强化学习中的统计规律对于新任务学习的加速是有效的,而技能学习是实现这一目标的一种方式,技能学习的热门方法是使用潜在变量模型来最大化预收集的经验的可能性,结合应用于描述技能的描述长度惩罚的新目标可以使技能更好地从经验中提取共同结构,