Mar, 2023

融合决策 Transformer: 权重平均以形成多任务策略

TL;DR本篇论文探讨了通过合并不同 MuJoCo 运动问题的决策 Transformer 子集,形成多任务模型(无集中式训练),从而更加灵活地创造通用策略的初步方法,同时提出了合并政策的更优结果可能性,并建议使用共同的预先训练初始化,以及在问题特定微调期间共同训练共享辅助任务,以帮助实现通用智能体的民主化和分布式过程。