Jun, 2024

如何截断权重提高语言模型中的推理能力

TL;DR大型语言模型在不同语言中生成流利文本的同时,通过去除预训练模型中的特定组件或 Transformer 块中特定权重部分,研究发现可以提高逻辑推理能力,通过分析训练过程和实验数据,探究了这个现象,并在简单的推理任务上测试了性能。