研究 CoT 增强蒸馏之谜

Jun, 2024

Investigating Mysteries of CoT-Augmented Distillation

Somin Wadhwa, Silvio Amir, Byron C. Wallace

TL;DR链式思维 (Chain of Thought) 的理由序列已被证明能在问题回答等任务中有效提高语言模型的性能。最近的研究表明，这种理由序列在模型蒸馏中也能起到作用。通过将这些序列（由大型 “教师” 模型生成）与目标标签一同用于微调小型 “学生” 模型，能显著提高性能。本研究旨在探讨为何以及如何这种额外的训练信号能在模型蒸馏中发挥作用，并报道了一些有趣的结果。

Abstract

Eliciting "chain of thought" (CoT) rationales -- sequences of token that convey a "reasoning" process -- has been shown to consistently improve LLM performance on tasks like question answering. More recent efforts have shown that such →

rationales cot sequences model distillation fine-tuning downstream performance

发现论文，激发创造

SCOTT: 自洽思维串讲压缩

提出了一种知识蒸馏方法以学习从比自身大几个数量级的大型语言模型中生成一致合理的解释的小型自洽 Chain-of-Thought（CoT）模型，它使用教师模型生成的合理解释来学习学生模型，并使用对抗性约束来保证学生模型保持一致性和反事实推理，实验结果表明，这种方法可以更好地生成有利于提高性能的 CoT 解释。

May, 2023

通过级联分解的 CoTs 蒸馏提升学生的推理泛化能力

大语言模型通过教师 - 学生学习实现对较小模型的推理增强，但传统方法在领域内推理表现优秀的同时，在跨领域任务中效果较差。本文通过将传统的单步学习过程分解为两个级联学习步骤，提出了级联分解 Chain-of-Thoughts 教师 - 学生学习（CasCoD）方法，通过去除预设答案并将问题与基本原理连接为输入，确保学生模型着重学习推理原理而不受干扰，从而提高推理泛化能力。广泛实验证明 CasCoD 在领域内和跨领域基准推理数据集上的有效性。

May, 2024

符号链式思考精华提炼：小型模型也能逐步 “思考

本文介绍了一种名为 Symbolic Chain-of-Thought Distillation (SCoTD) 的方法，在巨大的语言模型的注释和参数的指导下，训练参数远低于 50B 的较小模型，在几种常识基准测试中证明了在有监督和少样本学习环境下可以提高性能。

Jun, 2023

对话链条思路精炼：注重常识的对话代理

提出了一种知识蒸馏框架，利用大型语言模型作为不可靠的教师，并通过对齐过滤器选择性地提炼一致和有帮助的合理性，以实现对话语境中的多跳推理。进一步提出了 DOCTOR，一种可靠的 DialOgue Chain-of-ThOught Reasoner，为响应生成提供可靠的逻辑基础，通过广泛的实验表明，使用 DOCTOR 提供的高质量合理性显著提高了对话代理的响应质量。

Oct, 2023

走向理解思路链提示：对重要性的经验研究

本论文研究了 Chain-of-Thought 提示对大型语言模型的多步推理能力的影响，发现即使使用无效的推理步骤，其提示也能达到 80-90% 的性能，并探究了其他理性方面的影响。

Dec, 2022

超越模仿：从推理涤纶中学习关键推理步骤的双重思维链

使用基于错误的驱动关键推理步骤蒸馏（EDIT）方法，可以更有效地帮助小型语言模型学习重要的推理步骤，而不仅仅是简单的微调，验证了其在基准推理数据集上的有效性。

May, 2024

多模态命名实体和多模态关系抽取的思维链提示蒸馏

本研究探索了如何通过生成 “思考链” 从大型语言模型中提取出推理能力并综合常识推理能力，进而实现条件提示蒸馏，提高学生模型在 MNER 和 MRE 数据集上的效果。

Jun, 2023

Sci-CoT：利用大型语言模型增强科学问答中小模型的知识蒸馏

本文旨在通过知识蒸馏的方式将大型语言模型的推理能力传递给较小模型，提出了一种名为 Sci-CoT 的两阶段框架，该框架通过分离生成推理步骤和推理答案的过程，在科学问答任务中利用推理步骤更有效地进行推理，使得 8000 万参数的模型在 ARC-Easy 数据集的少样本情况下超过了 BLOOM-176B 的性能。

Aug, 2023

学习最大化互信息用于思路链提炼

利用连续思维蒸馏的知识蒸馏技术，通过多任务学习框架，最大化两个训练任务的特征表示的互信息，提出一种变分方法来优化小型模型的推理能力和标签预测的整合性，并在四个数据集上超越先进的 DSS 方法，为语言模型蒸馏和连续思维相关应用的未来研究提供有益指导。

Mar, 2024

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023