Apr, 2023

随机和确定性关注稀疏化算法:超参数化特征维度

TL;DR本研究考虑应用于大型语言模型中的注意力计算问题的矩阵稀疏化,并提出了两种算法解决该问题。实验结果表明,我们的研究成果可以将超大的特征维度降低到接近于句子长度的线性大小。