提出一种参数共享方法,通过针对 Transformer 和 Universal Transformer 的参数共享策略提高计算效率,并验证其在大数据配置中的有效性。
Apr, 2021
本论文研究了多语言神经机器翻译中参数共享技术,发现完全参数共享方法能够提高 BLEU 得分,但是对于较为不同的语言,BLEU 得分反而下降。因此,我们提出了针对局部参数共享的方法,能够显著提高翻译精度。
Sep, 2018
介绍了一种在 Transformers 中使用参数共享方法的算法 Subformer,该算法通过结合几种不同的参数共享 / 降维方法,以及使用 SELF 进行自我关注的嵌入分解技术,以在机器翻译、提取式摘要和语言建模等任务中提高性能。
Jan, 2021
研究了如何在 10 种语言中对不同的参数共享策略进行评估,发现共享转换分类器参数会有所帮助,共享单词和字符 LSTM 参数的有用性有所不同,建议采用共享转换分类器和通过调节控制共享单词和字符参数的模型,在单语情况下获得了显着的改进,不能完全共享太多参数。
Aug, 2018
本文提出了一种通过使用共享的超网络生成适配器参数来学习所有层和任务的参数高效的多任务学习框架,从而在跨任务共享知识的同时,通过任务特定的适配器使模型适应每个单独的任务,并在已知的 GLUE 基准测试中实现了多任务学习的改进性能。
Jun, 2021
本文研究并提出了一种参数效率更高、适用于语音识别的 conformer 变种,采用了稀疏门控 Mixture-of-experts (MoE) 来扩展其容量并实现共享参数,同时使用知识蒸馏进一步提高性能。实验结果表明,该模型相较于全参数编码器,仅用 1/3 的参数即能达到竞争优势。
Sep, 2022
该论文提出了一种新颖的方法,通过根据智能体的能力和目标对其进行分区,将参数共享的样本效率与多个独立网络的表征能力相结合,以缩短训练时间并提高最终回报,从而解决多智能体深度强化学习中,参数共享方法在不同环境下对训练速度和收敛效果的影响。
Feb, 2021
本文研究了通过参数效率的多路径结构,如何影响变压器 (Transformer) 模型,并通过 12 个 WMT 机器翻译任务的广泛实验表明,使用相同数量的参数,较浅的多路径模型可以实现类似甚至更好的性能,揭示了在训练更好的大型 Transformer 时,应该注意多路径结构和模型深度和宽度之间的平衡。
May, 2023
我们提出了一种新颖的参数共享方法,通过将每种类型的代理映射到共享网络中的不同区域,基于它们的身份,形成不同的子网络,从而增加了不同代理之间的策略多样性,而不引入额外的训练参数,通过在多个环境中进行的实验证明,我们的方法表现优于其他参数共享方法。
Dec, 2023
本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能,用于训练一种适用于多语言机器翻译的共享 Transformer 网络,缓解梯度消失问题,从而使得深度 Transformer 网络(例如 100 层)稳定训练,并在机器翻译和语言建模任务中实现了更好的性能。
Sep, 2020