将系统2凝聚为系统1

Jul, 2024

Distilling System 2 into System 1

Ping Yu, Jing Xu, Jason Weston, Ilia Kulikov

TL;DR自我监督方法可以通过蒸馏将“大语言模型”系统2的能力提高并进行加速的效果，同时也能使“连续学习人工智能系统”集中在其目前无法良好执行的推理任务上。

Abstract

large language models (LLMs) can spend extra compute during inference to generate intermediate thoughts, which helps to produce better final responses. Since chain-of-thought (Wei et al., 2022), many such System

发现论文，激发创造

SCOTT: 自洽思维串讲压缩

提出了一种知识蒸馏方法以学习从比自身大几个数量级的大型语言模型中生成一致合理的解释的小型自洽Chain-of-Thought（CoT）模型，它使用教师模型生成的合理解释来学习学生模型，并使用对抗性约束来保证学生模型保持一致性和反事实推理，实验结果表明，这种方法可以更好地生成有利于提高性能的CoT解释。

May, 2023

知识增强的推理蒸馏：面向知识密集型任务的小型语言模型

提出了知识增强推理提炼（KARD）这一新颖的方法，以从外部知识库检索的增强知识fine-tune小型LM，来生成 rationale，并且进一步提出了神经重新排序器以获取与理性产生相关的文档。该方法在知识密集型推理数据集上显著提高了小型T5和Flan-T5模型的性能。

May, 2023

混合蒸馏助于小型语言模型更好地进行推理

通过Mixed Distillation框架，将大语言模型的Program-of-Thought和Chain-of-Thought的能力转移到较小模型中，提高较小模型的性能，优于传统蒸馏方法，并在多路径推理中实现了令人印象深刻的准确度表现。

Dec, 2023

面向关系推理的LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

通过混合思维提炼，提高小型语言模型的数学推理能力

通过将大型语言模型的数学推理能力压缩到亿级参数的小型语言模型中，不影响性能，以实现先进的大型语言模型民主化。我们提出了EoTD（Equation-of-Thought Distillation）技术，将推理过程封装到基于方程的表示中，构建了EoTD数据集用于微调小型语言模型。此外，我们提出了MTD（Mix Thoughts Distillation）框架，以增强小型语言模型的推理性能。实验结果表明，EoTD显著提升了小型语言模型的推理能力，而MTD使这些模型达到了最先进的推理性能。

Jan, 2024

分而治之？您应该压缩LLM的哪个部分？

我们提出一种将问题分解为问题分解阶段和问题解决阶段的策略，并证明该策略能够优于单阶段解决方案。通过在结合问题解决LLMs的同时利用较小的问题分解模型，我们能够实现具有高效推理和局部适应性的推理。

Feb, 2024

通过解释解决方案程序提取LLM中的算法推理

通过解释解决方案来提取大型语言模型的推理能力，并将其应用于解决有竞争水平的编程挑战，从而实现了更高的解决率。

Apr, 2024

子目标蒸馏：提升小型语言代理的方法

通过层次化代理模型和知识蒸馏，将大型语言模型的性能通过转移学习到小型语言模型，在科学世界的多任务交互文本环境中胜过其他大型语言模型方法，从而提高了效率。

May, 2024

基于关键点的渐进式思维链提取法用于LLMs

KPOD框架通过利用遮罩学习来鼓励学生精确模仿关键点标记，并通过渐进式教学策略逐步扩展到整个论证过程，实现了来自大型语言模型的推理能力向较小学生模型的转移，取得了远超之前方法的广泛实验结果。

May, 2024

大型语言模型的知识蒸馏综述：方法、评估与应用

这篇论文通过从方法、评估和应用三个方面对专门针对大型语言模型的知识蒸馏技术进行了全面调查，将方法分为白盒知识蒸馏和黑盒知识蒸馏，并探讨了不同蒸馏方法之间的评估任务和蒸馏效果，并提出了未来研究的方向。通过深入了解最新进展和实际应用，这篇综述为研究人员提供了有价值的资源，为这一领域的持续进展铺平了道路。

Jul, 2024