Apr, 2024

XC-Cache: 为高效 LLM 推理跨越关注缓存上下文

TL;DR引入了受编码器 - 解码器结构启发的模型,利用交叉注意力将生成模型与参考文本进行条件化。这些模型仅训练少量添加的层,并在问答测试中表现出优异的条件生成能力,超越了上下文学习,并相对于标准 KV 缓存方法极大地减少了空间占用。