基于关键点的渐进式思维链提取法用于 LLMs

ICMLMay, 2024

基于关键点的渐进式思维链提取法用于 LLMs

Keypoint-based Progressive Chain-of-Thought Distillation for LLMs

Kaituo Feng, Changsheng Li, Xiaolu Zhang, Jun Zhou, Ye Yuan...

TL;DRKPOD 框架通过利用遮罩学习来鼓励学生精确模仿关键点标记，并通过渐进式教学策略逐步扩展到整个论证过程，实现了来自大型语言模型的推理能力向较小学生模型的转移，取得了远超之前方法的广泛实验结果。

Abstract

chain-of-thought distillation is a powerful technique for transferring reasoning abilities from large language models (LLMs) to smaller student models. Previous methods typically require the student to mimic the

chain-of-thought distillation large language models student models token weighting module in-rationale progressive distillation

发现论文，激发创造

SCOTT: 自洽思维串讲压缩

提出了一种知识蒸馏方法以学习从比自身大几个数量级的大型语言模型中生成一致合理的解释的小型自洽 Chain-of-Thought（CoT）模型，它使用教师模型生成的合理解释来学习学生模型，并使用对抗性约束来保证学生模型保持一致性和反事实推理，实验结果表明，这种方法可以更好地生成有利于提高性能的 CoT 解释。

May, 2023

超越模仿：从推理涤纶中学习关键推理步骤的双重思维链

使用基于错误的驱动关键推理步骤蒸馏（EDIT）方法，可以更有效地帮助小型语言模型学习重要的推理步骤，而不仅仅是简单的微调，验证了其在基准推理数据集上的有效性。

May, 2024

符号链式思考精华提炼：小型模型也能逐步 “思考

本文介绍了一种名为 Symbolic Chain-of-Thought Distillation (SCoTD) 的方法，在巨大的语言模型的注释和参数的指导下，训练参数远低于 50B 的较小模型，在几种常识基准测试中证明了在有监督和少样本学习环境下可以提高性能。

Jun, 2023

对话链条思路精炼：注重常识的对话代理

提出了一种知识蒸馏框架，利用大型语言模型作为不可靠的教师，并通过对齐过滤器选择性地提炼一致和有帮助的合理性，以实现对话语境中的多跳推理。进一步提出了 DOCTOR，一种可靠的 DialOgue Chain-of-ThOught Reasoner，为响应生成提供可靠的逻辑基础，通过广泛的实验表明，使用 DOCTOR 提供的高质量合理性显著提高了对话代理的响应质量。

Oct, 2023

多阶段均衡蒸馏：解决序列级知识蒸馏中的长尾挑战

大语言模型（LLMs）在各种自然语言处理任务中有了显著的进展，但部署仍然需要大量的计算资源。我们介绍了一种名为 Multi-Stage Balanced Distillation（BalDistill）的框架，通过在固定的计算资源预算内动态选择代表性的正样本和合成尾部样本，平衡训练数据，并在各种长尾数据集上取得了最先进的性能，提高了蒸馏模型的效率和效果。

Jun, 2024

通过知识蒸馏进行的隐含推理链条

使用语言模型的内部隐藏状态进行隐式推理，通过垂直在不同层的隐藏状态中进行推理来解决以前无法解决的任务，而无需进行明确的思维链条推理。

Nov, 2023

研究 CoT 增强蒸馏之谜

链式思维 (Chain of Thought) 的理由序列已被证明能在问题回答等任务中有效提高语言模型的性能。最近的研究表明，这种理由序列在模型蒸馏中也能起到作用。通过将这些序列（由大型 “教师” 模型生成）与目标标签一同用于微调小型 “学生” 模型，能显著提高性能。本研究旨在探讨为何以及如何这种额外的训练信号能在模型蒸馏中发挥作用，并报道了一些有趣的结果。

Jun, 2024

知识增强的推理蒸馏：面向知识密集型任务的小型语言模型

提出了知识增强推理提炼（KARD）这一新颖的方法，以从外部知识库检索的增强知识 fine-tune 小型 LM，来生成 rationale，并且进一步提出了神经重新排序器以获取与理性产生相关的文档。该方法在知识密集型推理数据集上显著提高了小型 T5 和 Flan-T5 模型的性能。

May, 2023

Pro-KD：跟随老师的足迹进行渐进式蒸馏

本文介绍了一种名为 Progressive Knowledge Distillation 的技术，通过模仿教师模型的训练轨迹，改善了知识蒸馏中的 “容量差距问题”（capacity-gap problem）和 “检查点搜索问题”（checkpoint-search problem），在不同的任务（如图像分类、自然语言理解等）中，与最先进的技术相比，实验结果始终保持更好的表现。

Oct, 2021

MCC-KD: 多 CoT 一致知识蒸馏

通过 Multi-CoT 一致知识蒸馏 (MCC-KD) 方法，我们提出了一种提升大型语言模型的推理能力、实现多样性和一致性的方法，并验证其在数学推理和常识推理的基准测试中的优秀性能和鲁棒泛化能力。

Oct, 2023