Transformer 模型中的专家寻找

May, 2020

Finding Experts in Transformer Models

Xavier Suau, Luca Zappella, Nicholas Apostoloff

TL;DR本研究旨在探讨预训练 Transformer 模型中的专家单元及其对模型性能的影响，并论证了这些单元在多个方面非常重要，如与模型泛化能力相关，可用于解释未知概念等，并通过强制激活关键专家单元的方法实现了对给定概念的文本生成，无需重新训练模型或使用附加参数。

Abstract

In this work we study the presence of expert units in pre-trained Transformer Models (TM), and how they impact a model's performance. We define expert units to be neurons that are able to classify a concept with

transformer models expert units generalization power concept co-learning self-conditioning

发现论文，激发创造

预训练 Transformer 中的紧密联系模块化

本文研究使用预训练的 Transformers 中是否存在模块化，发现神经元具有功能专业化，可以通过 Mixture-of-Experts 将分组神经元分配到对应功能模块中。在预训练阶段，模块化结构会更快地稳定，文献代码和数据可在链接中获得。

May, 2023

在预训练的基于 Transformer 的语言模型中寻找技能神经元

本论文研究了预训练 Transformer 中某些神经元的激活与特定任务的关联性，发现这些神经元被称为技能神经元，并证实它们对于任务的处理至关重要且具有任务特异性，可通过适当的微调或冻结车舱重用提取得到。此外，还探索了技能神经元的应用，包括网络修剪和构建更好的可转移性指标，这对于加速 Transformer 的发展和进一步研究也有很大推动作用。

Nov, 2022

使用任务级别 Mixture-of-Experts 挖掘和理解跨任务技能

本文介绍了一种针对 NLP 任务的基于任务级别的专家混合模型，该模型使用一组具有灵活性的 Transformer 层和一个路由组件进行任务分配，其表现优于传统的多任务学习模型，同时也发现保留人类任务分类方法对提高模型性能有一定帮助。

May, 2022

预训练变压器网络中的知识神经元

本文提出预训练模型中知识神经元的概念并探究其如何存储事实知识，通过使用填空测试来确定知识神经元并证明其与对应事实的正相关性。进一步研究表明，可以利用知识神经元对特定的事实进行编辑并揭示了其存储知识的方式。

Apr, 2021

预训练纯文本 Transformer 中的多模态神经元

通过向文本转换器添加视觉信息，我们研究了冻结的文本转换器如何使用自监督视觉编码器和单一线性投影将一种模态的学习表示迁移到另一种模态，在转换器内部发现了模态之间的转换，并通过识别多模态神经元和解码它们注入模型剩余流的概念来验证其作用。通过一系列实验证明多模态神经元在特定的视觉概念上操作，并对图像字幕生成产生系统性的因果影响。

Aug, 2023

通过从头开始训练领域知识来匹配领域专家

通过领域特定的自回归训练方法，在小型的 GPT-2 模型上训练神经科学文献，可以实现即使在小规模的语言模型上也能达到专家水平的性能表现。

May, 2024

分析 Transformer 语言模型中的编码概念

本文提出了一个新颖的框架 ConceptX，利用聚类发现预训练语言模型中编码的潜在概念，并通过与大量人类定义的概念进行对齐进行解释。它在七个变压器语言模型上的分析揭示了有趣的见解：i）学习表示中的潜在空间以不同的程度与不同的语言概念重叠，ii）模型中的较低层由词汇概念（例如，词缀）主导，而核心语言概念（例如，形态或句法关系）在中高层中更好地表示，iii）一些编码的概念具有多面性，无法用现有的人类定义概念充分说明。

Jun, 2022

对比学习和专家混合使得向量嵌入更精确

我们针对高度专业化的科学子领域中，传统方法不能很好地进行文本分类和矢量表示的问题，提出了使用共引作为相似度度量的专业数据集，并结合领域特定微调和专家混合的通用适应性方法，实现了在多个任务上具有高效性的通用 Transformer 网络，显著推进了科学文本分类指标的发展，并有望增强矢量数据库的搜索和编译。

Jan, 2024

分析预训练 Transformer 模型中的冗余

本文旨在研究 Deep NLP 的 Transformer 模型中的冗余性，并从两个角度对 BERT 和 XLNet 这两个流行预训练模型进行了分析。在这篇论文中，我们提出了一个特征转移学习的方法，可以在只使用原始的 10％神经元的情况下，保持 97％的性能表现。

Apr, 2020

训练专家语言模型带来的益处：比指令调整更胜一筹

本文研究发现，相对于使用多个任务的 multitask-prompted fine-tuning 方法进行指导调整的语言模型，仅针对单个任务进行专家模型的 fine-tuning 能够使模型在 11 个不同的未知数据集上以及 13 个 BIG-bench 基准测试数据集上平均准确率分别提高 3.20% 和 1.29%。此外，分别训练每个专家模型而不是单个 MT LM 进行 zero-shot 推断具有许多好处，包括避免负面任务转移，能够持续学习新任务而无需重新训练以避免灾难性遗忘以及显示在合并单个专家时具有组合能力。

Feb, 2023