ICMLJun, 2024
优化的分组查询注意机制用于变形金刚
Optimised Grouped-Query Attention Mechanism for Transformers
Yuang Chen, Cheng Zhang, Xitong Gao, Robert D. Mullins, George A. Constantinides...
TL;DR提出了一种激活信息驱动的方法 AsymGQA,将 MHA 不对称地分组为 GQA,并在模型性能方面取得了较好的表现。该方法解决了 GQA 在模型性能和硬件效能之间的权衡问题。