Apr, 2024
CATS:大型语言模型中的上下文感知稀疏阈值
CATS: Contextually-Aware Thresholding for Sparsity in Large Language Models
Je-Yong Lee, Donghyun Lee, Genghan Zhang, Mo Tiwari, Azalia Mirhoseini
TL;DR基于 Contextually Aware Thresholding for Sparsity (CATS) 的新框架用于稀疏化大型语言模型的激活并降低推理成本,在不需要微调的情况下,CATS-based 模型可以在 50% 的激活稀疏程度下实现与基础模型 1-2% 的下游任务性能,并且具有更快的收敛速度和更好的任务性能。