Jul, 2024

GoldFinch:高性能RWKV/Transformer混合加线性预填充和极限KV-Cache压缩

TL;DR我们介绍了GoldFinch,一种混合线性注意力/Transformer序列模型,它使用一种新技术以线性时间和空间相对于序列长度高效生成高度压缩和可重用的KV-Cache。