Feb, 2024

大型语言模型的头部共享注意力

TL;DR本文提出了一个关于大型语言模型的关注头权重共享的方法,并提出了两种内存高效的共享参数的方法,即 DirectShare 和 PostShare。实验结果表明,我们的关注头共享模型仍然保持了令人满意的性能,证明了将细粒度的权重共享应用于大型语言模型的可行性。