Nov, 2024

任务感知的和谐多任务决策变压器用于离线强化学习

TL;DR本文针对离线多任务强化学习中政策制定的挑战,提出了一种新的解决方案——和谐多任务决策变压器(HarmoDT)。通过在元学习框架内构建双层优化问题,该方法有效识别每个任务的最佳和谐参数子空间,从而提高统一政策的性能。此外,引入的群体变体(G-HarmoDT)通过基于梯度的信息聚类任务,避免了对任务标识符的依赖,展现了在不同设置下的显著性能提升。