Nov, 2023

GQKVA: 通过分组查询、键和值高效预训练 Transformer

TL;DRGQKVA 是一种多功能方法,旨在加速 transformer 的预训练并减小模型大小,其实验结果表明 GQKVA 在图像分类任务中可以提高大约 0.3% 的准确度并减小约 4% 的模型大小。