Jan, 2024

通过混合思维提炼,提高小型语言模型的数学推理能力

TL;DR通过将大型语言模型的数学推理能力压缩到亿级参数的小型语言模型中,不影响性能,以实现先进的大型语言模型民主化。我们提出了 EoTD(Equation-of-Thought Distillation)技术,将推理过程封装到基于方程的表示中,构建了 EoTD 数据集用于微调小型语言模型。此外,我们提出了 MTD(Mix Thoughts Distillation)框架,以增强小型语言模型的推理性能。实验结果表明,EoTD 显著提升了小型语言模型的推理能力,而 MTD 使这些模型达到了最先进的推理性能。