ICMLJun, 2024

优化的分组查询注意机制用于变形金刚

TL;DR提出了一种激活信息驱动的方法 AsymGQA,将 MHA 不对称地分组为 GQA,并在模型性能方面取得了较好的表现。该方法解决了 GQA 在模型性能和硬件效能之间的权衡问题。