Feb, 2024

关于逐出政策对键值约束生成语言模型推理的有效性

TL;DR本文研究了现有驱逐策略在重要性评分计算和驱逐范围构建方面的不足,并提出 RoCo,一种基于时间注意力分数和鲁棒性度量的稳健缓存省略策略。通过广泛的实验验证了 RoCo 的卓越性能,并发布了 EasyKV 软件包,专门用于用户友好的键值约束生成推断。