Apr, 2024
XC-Cache: 为高效 LLM 推理跨越关注缓存上下文
XC-Cache: Cross-Attending to Cached Context for Efficient LLM Inference
João Monteiro, Étienne Marcotte, Pierre-André Noël, Valentina Zantedeschi, David Vázquez...
TL;DR引入了受编码器 - 解码器结构启发的模型,利用交叉注意力将生成模型与参考文本进行条件化。这些模型仅训练少量添加的层,并在问答测试中表现出优异的条件生成能力,超越了上下文学习,并相对于标准 KV 缓存方法极大地减少了空间占用。