Sep, 2023

垃圾DNA假设:通过稀疏性对LLM预训练权重的任务为中心的视角

TL;DR通过稀疏性作为工具,本研究证明预训练大型语言模型中的低幅度权重与它们所承载的知识之间存在强相关性,支持了我们对“垃圾基因”假设的深入调查,揭示了删除这些看似不重要的权重可能导致不可逆的知识遗忘和性能损害,为LLMs如何以任务敏感的方式编码知识提供了新的见解,为模型剪枝开辟了未来的研究方向,并为推理期间的任务感知条件计算开辟了道路。