理解 Transformer 中的参数共享

Jun, 2023

Understanding Parameter Sharing in Transformers

Ye Lin, Mingxuan Wang, Zhexi Zhang, Xiaohui Wang, Tong Xiao...

TL;DR通过研究深度模型中参数共享的原因，本文发现共享参数主要是通过优化训练收敛来提高模型性能。在机器翻译等任务中，我们的模型表现优异，且仅有参数共享模型一半的复杂度。

Abstract

parameter sharing has proven to be a parameter-efficient approach. Previous work on transformers has focused on sharing parameters in different layers, which can improve the performance of models with limited par

parameter sharing transformers model complexity training convergence machine translation

发现论文，激发创造

Transformers 中层间参数共享经验

提出一种参数共享方法，通过针对 Transformer 和 Universal Transformer 的参数共享策略提高计算效率，并验证其在大数据配置中的有效性。

Apr, 2021

多语言自注意翻译模型的参数共享方法

本论文研究了多语言神经机器翻译中参数共享技术，发现完全参数共享方法能够提高 BLEU 得分，但是对于较为不同的语言，BLEU 得分反而下降。因此，我们提出了针对局部参数共享的方法，能够显著提高翻译精度。

Sep, 2018

Subformer: 探索生成变形器中参数效率的权重共享

介绍了一种在 Transformers 中使用参数共享方法的算法 Subformer，该算法通过结合几种不同的参数共享 / 降维方法，以及使用 SELF 进行自我关注的嵌入分解技术，以在机器翻译、提取式摘要和语言建模等任务中提高性能。

Jan, 2021

相关语言依存分析器之间的参数共享

研究了如何在 10 种语言中对不同的参数共享策略进行评估，发现共享转换分类器参数会有所帮助，共享单词和字符 LSTM 参数的有用性有所不同，建议采用共享转换分类器和通过调节控制共享单词和字符参数的模型，在单语情况下获得了显着的改进，不能完全共享太多参数。

Aug, 2018

共享超网络的 Transformer 多任务微调的参数高效方法

本文提出了一种通过使用共享的超网络生成适配器参数来学习所有层和任务的参数高效的多任务学习框架，从而在跨任务共享知识的同时，通过任务特定的适配器使模型适应每个单独的任务，并在已知的 GLUE 基准测试中实现了多任务学习的改进性能。

Jun, 2021

通过共享稀疏门控专家实现参数高效的共轭词器，用于端到端语音识别

本文研究并提出了一种参数效率更高、适用于语音识别的 conformer 变种，采用了稀疏门控 Mixture-of-experts (MoE) 来扩展其容量并实现共享参数，同时使用知识蒸馏进一步提高性能。实验结果表明，该模型相较于全参数编码器，仅用 1/3 的参数即能达到竞争优势。

Sep, 2022

利用选择性参数共享扩展多智体强化学习

该论文提出了一种新颖的方法，通过根据智能体的能力和目标对其进行分区，将参数共享的样本效率与多个独立网络的表征能力相结合，以缩短训练时间并提高最终回报，从而解决多智能体深度强化学习中，参数共享方法在不同环境下对训练速度和收敛效果的影响。

Feb, 2021

多路径变换器更好：神经机器翻译的案例研究

本文研究了通过参数效率的多路径结构，如何影响变压器 (Transformer) 模型，并通过 12 个 WMT 机器翻译任务的广泛实验表明，使用相同数量的参数，较浅的多路径模型可以实现类似甚至更好的性能，揭示了在训练更好的大型 Transformer 时，应该注意多路径结构和模型深度和宽度之间的平衡。

May, 2023

多智能体强化学习的自适应参数共享

我们提出了一种新颖的参数共享方法，通过将每种类型的代理映射到共享网络中的不同区域，基于它们的身份，形成不同的子网络，从而增加了不同代理之间的策略多样性，而不引入额外的训练参数，通过在多个环境中进行的实验证明，我们的方法表现优于其他参数共享方法。

Dec, 2023

深度变换器与潜在深度

本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能，用于训练一种适用于多语言机器翻译的共享 Transformer 网络，缓解梯度消失问题，从而使得深度 Transformer 网络（例如 100 层）稳定训练，并在机器翻译和语言建模任务中实现了更好的性能。

Sep, 2020