Jun, 2024

揭示和控制Transformer中的异常注意力分布

TL;DR通过对豁免现象的分析,这篇论文探讨了基于Transformer架构的大型模型中注意力机制中普遍存在的高强度关注第一个元素的现象,从而有助于开发关注分布的技术,如Key-Value(KV)Cache压缩和无限外插法。