Apr, 2024

CATS:大型语言模型中的上下文感知稀疏阈值

TL;DR基于 Contextually Aware Thresholding for Sparsity (CATS) 的新框架用于稀疏化大型语言模型的激活并降低推理成本,在不需要微调的情况下,CATS-based 模型可以在 50% 的激活稀疏程度下实现与基础模型 1-2% 的下游任务性能,并且具有更快的收敛速度和更好的任务性能。