Apr, 2025
动态压缩提示,以实现大型语言模型的高效推理
Dynamic Compressing Prompts for Efficient Inference of Large Language
Models
TL;DR本研究解决了大型语言模型(LLMs)在推理过程中的长提示带来的计算成本高和性能受限的问题。通过提出一种名为动态压缩提示(LLM-DCP)的任务无关方法,我们有效减少了提示标记的数量,同时尽量保持模型性能。实验表明,该方法在高压缩率时明显优于现有技术,展示了良好的应用潜力。