该研究通过动态深度路由(D2R)框架实现多任务强化学习,其中通过绕过中间模块灵活选择不同数量的模块来提高数据效率并解决不同策略的路由路径问题。该框架进一步引入 ResRouting 方法解决行为策略和目标策略在离策略训练过程中的差异路由路径问题,并设计了自动的路由平衡机制来促进未掌握任务的继续路由探索。在 Meta-World 基准测试中,通过该框架在各种机器人操作任务上进行了广泛实验,取得了具有显著提高的学习效率的最新成果。
Dec, 2023
本研究主要关注于如何使用深度增强学习的方法,通过神经网络策略来训练机器人获取新的技能。同时,通过迁移学习,可以实现技能和机器人之间的信息共享,从而使用 mix-and-match 模块来解决新的机器人环境和任务组合的问题。
Sep, 2016
通过模块化设计并学习潜在的离散技能,该研究在多任务强化学习和少样本学习中实现了更高的样本效率和解释性。
Feb, 2022
本论文提出了一种基于策略草图的多任务深度强化学习框架,该框架实现了通过关联每个子任务与模块化子策略、跨任务共享子策略的方式来提高任务性能,并自然地产生可解释的基础行为库,以便迅速适应新任务。
Nov, 2016
本文提出了一种学习一组神经网络模块并以不同方式组合的策略,并通过重复使用模块来实现组合概括,提高机器人相关问题的性能。
Jun, 2018
本文提出一种名为任务路由的多任务学习方法,应用于卷积层激活上的条件特征转换,实现更高效的多任务训练,在单个模型中成功适配了数百个分类任务,并在 5 个数据集上验证了其性能。
Mar, 2019
本文使用调制模块来增强相关任务之间的耦合度和特征共享,同时通过引入微小的参数进行无关任务的学习分离,使得多任务联合训练更加高效。在两个检索任务上的实验结果表明,与其他多任务学习方法相比,该方法在准确性和存储效率上都具有优势。
Jul, 2018
本文探讨了利用共享模块化神经网络来控制多种智能体形态进行运动,并通过信息传递实现合作从而成功生成跨多种形态的行为。
Jul, 2020
研究一种大规模集体机器人学习系统,可以同时获取多项行为并跨越不同任务,通过 MT-Opt 来学习广泛技能,并证明其在结构相似的新任务上可以泛化并且可以通过利用过去的经验更快地获取独特的新任务,从而提高系统的性能和功能。
Apr, 2021
该研究提出了 Mod-Squad 模型,使用模块化结构将组内的专家与任务相匹配,并在训练过程中优化匹配过程以对抗多任务学习的挑战。实验表明本方法在任务数量和训练集规模扩大时表现强于其他方法。
Dec, 2022