Aug, 2024

超越均匀查询分布:关键驱动的分组查询注意力

TL;DR本研究解决了当前自注意力机制在长序列任务中面临的内存限制问题。提出了关键分布GQA和动态关键分布GQA两种新方法,通过利用关键头的范数信息来优化查询分配,并且实验结果显示这些改进能够提高ViT-L模型的准确率,提升幅度可达8%。