Oct, 2023

CacheGen:面向语言模型应用的快速上下文加载

TL;DRCacheGen通过将上下文的键值(KV)特征压缩成更紧凑的比特流表示形式,从而减少获取和处理上下文的延迟,并降低带宽使用量。在测试中,相对于处理长上下文的最近方法,CacheGen在保持类似的大型语言模型任务性能的同时,减少了带宽使用量3.7-4.3倍,减少了获取和处理上下文的总延迟2.7-3倍。