Jan, 2024

LoMA:无损压缩的内存注意力

TL;DR提出了一种新方法,即无损压缩记忆关注(LoMA)方法,可以根据一组压缩比将信息无损地压缩到特殊记忆令牌 KV 对中,实现资源消耗的减少,并取得了显著的结果。