搜索用于语言建模的高效 Transformer
本文介绍了两种技术以提高 Transformer 的效率:使用局部敏感哈希替换点积注意力和使用可逆残差层代替标准残差层,减少存储激活的次数。改进后的模型 Reformer 在处理长序列时比 Transformer 更加高效。
Jan, 2020
本文提出了一种名为 “轻量 Transformer 搜索(LTS)” 的新型网络自动设计算法,利用解码器参数作为感性代理,不需要任何模型训练,直接在目标设备上运行,方便快捷地制定任务性能与硬件成本间的 Pareto 前沿方案,应用到自回归语言模型中可获得高的准确率,同时摆脱了数百个 GPU 小时训练的碳足迹。
Mar, 2022
通过对 Transformer 架构进行参数剪枝的优化策略,通过广泛实验和超参数选择,研究发现可以在不牺牲性能的情况下显著减少模型大小,并改善通用性能,从而在深度学习应用方面实现更可扩展和环境友好的方式。
Oct, 2023
本文介绍的机器翻译模型基于 Transformer,通过自动调整网络架构和超参数来提高 BLEU 分数,其中引入了自动调整网络大小的正则化方法,能够在删除网络中的神经元的同时减少模型的参数数量。
Oct, 2019
研究表明,即使较小的 Transformer 模型在每次迭代中执行更快,较宽且较深的模型在明显更少的步骤中收敛。此外,大型模型比小型模型更 robust,因此,高度压缩的大型模型实现比轻度压缩的小型模型更高的准确性
Feb, 2020
通过评估循环神经网络(RNN)和 Transformer 在复制跨语言结构启动方面的表现,这项研究对人类语言处理中抽象语法表示的关键指标进行了评估。研究重点关注涉及两种类型不同的语言的中英启动,探讨这些模型如何处理结构启动这一稳定现象,即暴露于特定句子结构会增加之后选择类似结构的可能性。此外,我们还利用大型语言模型(LLM)来衡量跨语言结构启动效果。研究结果表明 Transformer 在生成启动句子结构方面的性能优于 RNN,挑战了人类句子处理主要涉及循环和即时处理的传统观念,同时表明了基于线索的检索机制的作用。总体而言,这项工作对于了解计算模型如何反映多语言环境中人类认知过程具有重要贡献。
May, 2024
本篇论文针对 Transformer 架构不足以高效融合语言建模所需的单词级序列上下文,提出了在保持计算效率的同时通过添加额外的 LSTM 层能够更好地捕捉顺序上下文的有效 Transformer 架构,其中 Coordinate Architecture Search(CAS)通过迭代模型的精炼来找到一个有效的架构,实验结果表明 CAS 在所有问题上的 perplexities 达到了 20.42 ~ 34.11,即比最先进的 LSTM 提高了 12.0 perplexity 单位。
Apr, 2019
本研究提出了一种新的改进 Transformer 模型的方法,使用了文本序列中的离散潜在表示构造 n-gram,并应用于语言建模和文本分类中,经实验证明性能优于传统的 Transformer 模型和 Primer,该模型已在 Jax 中开源以便复现。
Jul, 2022
本文介绍了一种名为 Brainformer 的复合深度神经网络模型,其中包括稀疏门控前馈层、紧密前馈层、自注意层以及不同形式的层规范化和激活函数。 Brainformer 模型表现优异且更为高效,比当前最先进的密集和稀疏的 Transformers 模型快 5 倍。在下游任务评估中,Brainformer 模型与 GLaM 模型相比,细调后 SuperGLUE 得分高出 3%。
May, 2023