融合决策 Transformer: 权重平均以形成多任务策略

Mar, 2023

融合决策 Transformer: 权重平均以形成多任务策略

Merging Decision Transformers: Weight Averaging for Forming Multi-Task Policies

Daniel Lawson, Ahmed H. Qureshi

TL;DR本篇论文探讨了通过合并不同 MuJoCo 运动问题的决策 Transformer 子集，形成多任务模型（无集中式训练），从而更加灵活地创造通用策略的初步方法，同时提出了合并政策的更优结果可能性，并建议使用共同的预先训练初始化，以及在问题特定微调期间共同训练共享辅助任务，以帮助实现通用智能体的民主化和分布式过程。

Abstract

Recent work has shown the promise of creating generalist, transformer-based, policies for language, vision, and sequential decision-making problems. To create such models, we generally require centralized training objectives, data, and compute. It is of interest if we can more flexibly create generalist policies, by merging together multiple, task-specific,

transformer-based policies multi-task models decision transformers pre-trained initializations democratize

发现论文，激发创造

通过权重融合的专家组混合合并多任务模型

将各种在不同任务上训练的基于 Transformer 的专用模型合并为一个统一的模型，可以同时执行所有任务，通过识别并分离共享知识和任务特定知识，并动态地集成它们，可以在很大程度上减轻参数干扰问题。

Feb, 2024

语言模型融合的费舍尔掩码节点

我们引入一种新的模型合并方法，将先前在 Fisher 加权平均和模型修剪中对 Fisher 信息的使用的工作见解与 Transformer 结构内的掩码节点的 Fisher 信息相结合，提出了一种计算高效的加权平均方案。我们的方法在 BERT 系列的各种模型中展现了规则且显著的性能提升，相较于计算成本的全尺寸 Fisher 加权平均，基准性能提升高达 6.5 个百分点，并且以 57.4 倍的加速比提升效率。我们的结果证明了我们的方法在当前多任务学习环境中的潜力，并表明其在新的模型架构和学习场景中的可扩展性和适应性。

Mar, 2024

融合语言模型权重实现无数据知识融合

本文提出一种数据无关的知识融合方法，通过在参数空间内合并模型并引导最小化预测差异的权重，将建立在不同训练数据集上的个别模型合并为一个模型，以在所有数据集领域都表现良好并可以推广到域外数据。在评估设置的一系列电池上，我们发现该方法明显优于 Fisher 加权平均或模型集成等基线，并且我们发现我们的方法是一种有前途的替代多任务学习的方法，可以在不访问训练数据的情况下保留或有时提高个别模型的性能。最后，模型合并比训练多任务模型更高效，因此适用于更广泛的情况。

Dec, 2022

多游戏决策转换器

本研究探讨了采用 transformer-based model 方法训练的多用途强化学习代理程序在 Atari 游戏中的表现，发现使用 Multi-Game Decision Transformer 模型的性能和可伸缩性最佳，并提供预训练模型和代码以鼓励该方向的进一步研究。

May, 2022

多模态模型合并的实证研究

本论文探讨了如何将不同模态的 transformer 模型融合成参数有效的多模态结构，通过综合实验分析了融合的关键因素，提出了一个有效的训练方法。

Apr, 2023

基于不确定性梯度匹配的模型合并

通过对不同数据集进行训练的模型进行带权平均化可以提高其性能，但为什么会有效以及何时可能失败？我们通过梯度不匹配将带权平均的不准确性联系起来，并提出了一种基于不确定性的新方案，通过减少不匹配来改善性能。这种联系还揭示了其他方案（如平均化、任务算术和 Fisher 加权平均）中的隐含假设。我们的新方法对大型语言模型和视觉转换器在性能和对超参数的稳健性方面都有一致的改进。

Oct, 2023

基于权重合并的船队策略学习及其在机器人工具使用中的应用

研究通过分布式学习实现机器人舰队在各种环境中获得多样化技能的方法，并介绍了 fleet-merge 方法用于合并参数化的递归神经网络策略，在 Meta-World 环境中有效地合并 50 个任务的策略，并在机器人工具使用基准测试中验证了 fleet-merge 的功效。

Oct, 2023

Fisher 加权平均合并模型

本研究提出了 Fisher 合并方法用于模型合并，与标准梯度传递学习方法相比，Fisher 合并可以在中间任务训练和领域自适配预训练方面提供一种基本不同的能力转移方法，同时成本更低，并且同时能够实现以前未曾探索的模型组合方式。

Nov, 2021

改进模型合并和压缩的任务信息定位

我们提出了一种模型合并的算法，通过使用 TALL-masks 方法识别任务支持，在保留超过 99％的单任务准确性的同时，提高了现有模型合并方法的性能，并且我们的压缩方案将存储减少了 57Gb 到 8.2Gb，保留了 99.7％的原始性能。

May, 2024

专家权重平均化：一种新的用于视觉 Transformer 的通用训练方案

Vision Transformers (ViTs) can be trained more efficiently using a modified Mixture-of-Experts (MoE) training scheme, where MoEs are utilized to replace certain parts of the ViT during training and converted back to the original ViT for inference, resulting in improved performance without increasing inference cost.

Aug, 2023