EMNLPOct, 2023

TCRA-LLM:基于令牌压缩检索的大规模语言模型,用于推理成本降低

TL;DR使用自学生成的样本进行 Fine-tune,我们提出了两种方法进行文本压缩:摘要压缩和语义压缩。摘要压缩可以减少 65% 的检索令牌大小并提高 0.3% 的准确性,语义压缩可以将令牌大小减少 20%,但只有 1.6% 的准确性损失。