Oct, 2022

大型模型是简明学习者:训练转换器中的激活稀疏性

TL;DR通过实验证明机器学习模型的机制使得 transformer 架构的激活图稀疏化,进而提出一种可以显著降低计算量并提高效率的方式。