Mar, 2024

推理过程中不需要所有 LLM 层

TL;DR利用适应性输入实例的简单算法 AdaInfer,在 Large Language Models 的推理阶段中使用浅层次进行简单实例的推理和深层次进行困难实例的推理,可在节省计算资源的同时保持性能。