Feb, 2024

通过嵌入相似性实现高效的提示缓存

TL;DR通过提示缓存改善大型语言模型的推理效率,专注于通过嵌入相似性预测单轮问答任务的提示缓存的准确性,并提出了基于蒸馏的方法来优化嵌入,实验结果显示我们的模型在缓存效率上优于之前的嵌入模型。