心灵之镜：从大型语言模型中提炼自我评估能力和综合思考

Nov, 2023

心灵之镜：从大型语言模型中提炼自我评估能力和综合思考

Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive Thinking from Large Language Models

Weize Liu, Guocong Li, Kai Zhang, Bang Du, Qiyuan Chen...

TL;DR大型语言模型（LLMs）在自然语言处理领域取得了显著的进展，但是考虑到它们的规模和计算需求，将这些模型实际部署在资源受限的环境中面临着巨大的挑战。为了解决这些问题，我们提出了一种双重方法：首先，我们引入了一种将 LLMs 中固有的自我评价能力提取到 SLMs 中的新方法，旨在减少错误推理和幻觉的不利影响。其次，我们建议采用综合的蒸馏过程，结合多种不同的链式思维和自我评价范式，确保更全面、更稳健地将知识转移至 SLMs 中。在三个自然语言处理基准测试上进行的实验表明，我们的方法显著提高了蒸馏 SLMs 的性能，并为开发与人类认知更接近的较小模型指明了方向。

Abstract

large language models (LLMs) have achieved remarkable advancements in the field of natural language processing. However, the sheer scale and computational demands of these models present formidable challenges when considering their practical deployment in resource-constrained contexts.

large language models chain-of-thought distillation self-evaluation capability erroneous reasoning distilled slms

发现论文，激发创造

混合蒸馏助于小型语言模型更好地进行推理

通过 Mixed Distillation 框架，将大语言模型的 Program-of-Thought 和 Chain-of-Thought 的能力转移到较小模型中，提高较小模型的性能，优于传统蒸馏方法，并在多路径推理中实现了令人印象深刻的准确度表现。

Dec, 2023

SCOTT: 自洽思维串讲压缩

提出了一种知识蒸馏方法以学习从比自身大几个数量级的大型语言模型中生成一致合理的解释的小型自洽 Chain-of-Thought（CoT）模型，它使用教师模型生成的合理解释来学习学生模型，并使用对抗性约束来保证学生模型保持一致性和反事实推理，实验结果表明，这种方法可以更好地生成有利于提高性能的 CoT 解释。

May, 2023

Sci-CoT：利用大型语言模型增强科学问答中小模型的知识蒸馏

本文旨在通过知识蒸馏的方式将大型语言模型的推理能力传递给较小模型，提出了一种名为 Sci-CoT 的两阶段框架，该框架通过分离生成推理步骤和推理答案的过程，在科学问答任务中利用推理步骤更有效地进行推理，使得 8000 万参数的模型在 ARC-Easy 数据集的少样本情况下超过了 BLOOM-176B 的性能。

Aug, 2023

通过混合思维提炼，提高小型语言模型的数学推理能力

通过将大型语言模型的数学推理能力压缩到亿级参数的小型语言模型中，不影响性能，以实现先进的大型语言模型民主化。我们提出了 EoTD（Equation-of-Thought Distillation）技术，将推理过程封装到基于方程的表示中，构建了 EoTD 数据集用于微调小型语言模型。此外，我们提出了 MTD（Mix Thoughts Distillation）框架，以增强小型语言模型的推理性能。实验结果表明，EoTD 显著提升了小型语言模型的推理能力，而 MTD 使这些模型达到了最先进的推理性能。

Jan, 2024

民主化推理能力：从大型语言模型的个性化学习

通过多轮互动学习范式和自我反思学习，我们提出了一种定制化学习方法，从而将推理能力传授给较小的语言模型，以促进推理能力的开放和普及。

Oct, 2023

超越模仿：从推理涤纶中学习关键推理步骤的双重思维链

使用基于错误的驱动关键推理步骤蒸馏（EDIT）方法，可以更有效地帮助小型语言模型学习重要的推理步骤，而不仅仅是简单的微调，验证了其在基准推理数据集上的有效性。

May, 2024

自我认知评估大型语言模型

基于 Feynman 的理解通过创造原则，我们引入了一个易于实施的自我认知评估框架，评估模型对自动生成的问题的理解和回应能力。我们的研究发现，在多个任务上测试多个模型后，模型的自我认知能力存在显著差距。进一步分析表明，这些差距可能是由于与人类注意机制的不匹配所导致的。此外，对自动生成的数学任务进行微调可以提高模型的数学性能，突出了该框架在高效和富有洞察力的模型评估方面的潜力，并可能有助于改善大型语言模型。

Jun, 2024

TinyLLM: 从多个大型语言模型中学习一个小型学生

通过知识蒸馏，从多个大型教师语言模型中学习小型学生语言模型 TinyLLM，以解决当前方法存在的知识多样性有限和缺乏丰富的上下文信息等问题，并通过引入上下文示例生成器和 teacher-forcing 链式推理策略来确保合理的推理基于适当情境，从而在两个推理任务的六个数据集上的广泛实验中展示了 TinyLLM 方法的优越性，结果表明尽管模型尺寸较小，但 TinyLLM 可显著优于大型教师语言模型。

Feb, 2024

通过自我反思来缓解大型语言模型中的幻想

通过与大规模语言模型和数据集合作，本文分析了医学生成型问答系统中幻觉现象的问题，并提出了一种交互自我反思的方法来解决该挑战，最终实验证明该方法在幻觉减少方面优于基线模型。

Oct, 2023

自我对比：更好的反射通过不一致的解决视角

我们提出了一种基于自对照的策略，通过适应性地探索多样的解决观点、对比差异并总结出这些差异的清单，为大型语言模型增添了多样的视角，以减轻固执偏见，并且更准确和稳定地进行反思。

Jan, 2024