ICMLMay, 2024

HarmoDT:用于离线强化学习的多任务决策协同变压器

TL;DRHarmoDT 是一种融合多任务强化学习算法,通过使用 Transformer 架构的可扩展性和参数共享的优势来解决任务之间的相似性问题,并通过双层优化问题来确定每个任务的最佳参数子空间。