用于大型稀疏模型的哈希层

Jun, 2021

Hash Layers For Large Sparse Models

Stephen Roller, Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston

TL;DR本研究通过使用哈希方法对大型 Transformer 模型中使用不同输入参数的稀疏层进行了训练，通过修改前馈层对序列中的当前标记进行哈希以便将其哈希到不同的权重集中，进一步证明此方法可以在不需要额外路由参数或负载平衡损失等的情况下超越或与 Switch Transformers 和 BASE Layers 等学习路由混合专家方法竞争，同时研究了不同的哈希技术、哈希大小和输入特征的表现，并表明了本研究的方法可以在大规模语言建模和对话任务、下游微调任务中表现出色。

Abstract

We investigate the training of sparse layers that use different parameters for different inputs based on hashing in large transformer models

sparse layers hashing transformer models feedforward layer mixture-of-expert methods

发现论文，激发创造

BASE Layers：简化大规模稀疏模型的训练

通过引入均衡分配的 EXPERT 层，使得大规模语言模型中的稀疏层更加简单。通过将词汇分配到专门的 EXPERT 模块中，可以将训练和推理的效率显著提高，同时避免了使用新的超参数或辅助损失的必要。

Mar, 2021

基于随机哈希的可扩展可持续深度学习

提出了一种基于哈希的新技术，通过只处理少量的节点来显著降低训练和测试深度神经网络的计算成本，该算法只使用了原始模型总乘法数的 5％，同时保持平均精度在 1％以内，其更新始终是稀疏的，使得算法非常适合异步和并行训练，端到端实验展示了该算法的可扩展性和可持续性。

Feb, 2016

缩放 Transformers 中的稀疏已足够

本研究提出了一种用于构建下一代 Transformer 模型的方法，即利用稀疏层进行有效缩放和高效执行非批量解码。结果表明，这种模型在拥有相同参数数量的情况下，可以获得与标准 Transformer 相同的效果，并且在长文本摘要方面表现优异。

Nov, 2021

训练稀疏翻译模型的技巧

本文提出了使用 BASELayers 的稀疏缩放架构来缓解多任务学习中高资源任务偏差的问题，并通过温度加热机制和密集预训练两种技术来提高多语言机器翻译的性能。该方法在两个多语言翻译基准测试中的收敛速度比标准的 BASELayers 和密集缩放基线快了两倍以上。

Oct, 2021

基于私有设备局部敏感哈希的大规模分布式学习

使用新的哈希函数族，开发第一个在设备上具有私密性、个性化和内存效率高的局部敏感哈希框架，实现了隐私和个性化，能够与其他 LSH 框架相竞争，训练大规模推荐网络。

Jun, 2023

大规模多任务学习的特征散列

本文研究哈希作为一种优秀的降维和实用的非参数估计策略，并提供特征哈希的指数尾部界限，证明随机子空间之间的交互在高概率下是可以忽略的。同时，展示了在多任务学习这一新应用场景中采用此方法的可行性。

Feb, 2009

HashFormers：面向独立于词汇表的预训练 Transformer

本论文提出了一种新的基于 Hash 技术的预训练模型 HashFormers，该模型可以在不使用 embedding matrices 的情况下支持无限词汇量，具有内存效率更高的优点，并在多个文本分类任务中达到了可比较的预测性能。

Oct, 2022

语言建模中的跳跃学习

在对大规模过参数化的语言模型进行预训练时，我们提出了一种简单的路由机制，用于为不同的标记分配不同数量的计算量，从而显著改善在上下文少样本学习中的性能。这种方法在 24 个自然语言处理任务上进行了全面评估，证明相对于竞争性基准，该方法能够显著提高 1-shot 性能，而仅需额外的轻微成本进行推理。

Nov, 2023

大型模型是简明学习者：训练转换器中的激活稀疏性

通过实验证明机器学习模型的机制使得 transformer 架构的激活图稀疏化，进而提出一种可以显著降低计算量并提高效率的方式。

Oct, 2022

LoRAP：大型语言模型的 Transformer 子层应采用差异化结构压缩

本研究提出了一种混合压缩模型 LoRAP，通过输入激活加权奇异值分解方法和基于低秩度差异的参数分配方案，增强了 Transformer 模型中 Multi-Head Self-Attention 子层的低秩特性，并提出了无梯度的结构化通道剪枝方法用于 Feed-Forward Network 子层，实验证明我们的提议在多重压缩比下优于之前的结构化压缩方法。

Apr, 2024