研究 CoT 增强蒸馏之谜
提出了一种知识蒸馏方法以学习从比自身大几个数量级的大型语言模型中生成一致合理的解释的小型自洽 Chain-of-Thought(CoT)模型,它使用教师模型生成的合理解释来学习学生模型,并使用对抗性约束来保证学生模型保持一致性和反事实推理,实验结果表明,这种方法可以更好地生成有利于提高性能的 CoT 解释。
May, 2023
大语言模型通过教师 - 学生学习实现对较小模型的推理增强,但传统方法在领域内推理表现优秀的同时,在跨领域任务中效果较差。本文通过将传统的单步学习过程分解为两个级联学习步骤,提出了级联分解 Chain-of-Thoughts 教师 - 学生学习(CasCoD)方法,通过去除预设答案并将问题与基本原理连接为输入,确保学生模型着重学习推理原理而不受干扰,从而提高推理泛化能力。广泛实验证明 CasCoD 在领域内和跨领域基准推理数据集上的有效性。
May, 2024
本文介绍了一种名为 Symbolic Chain-of-Thought Distillation (SCoTD) 的方法,在巨大的语言模型的注释和参数的指导下,训练参数远低于 50B 的较小模型,在几种常识基准测试中证明了在有监督和少样本学习环境下可以提高性能。
Jun, 2023
提出了一种知识蒸馏框架,利用大型语言模型作为不可靠的教师,并通过对齐过滤器选择性地提炼一致和有帮助的合理性,以实现对话语境中的多跳推理。进一步提出了 DOCTOR,一种可靠的 DialOgue Chain-of-ThOught Reasoner,为响应生成提供可靠的逻辑基础,通过广泛的实验表明,使用 DOCTOR 提供的高质量合理性显著提高了对话代理的响应质量。
Oct, 2023
本论文研究了 Chain-of-Thought 提示对大型语言模型的多步推理能力的影响,发现即使使用无效的推理步骤,其提示也能达到 80-90% 的性能,并探究了其他理性方面的影响。
Dec, 2022
使用基于错误的驱动关键推理步骤蒸馏(EDIT)方法,可以更有效地帮助小型语言模型学习重要的推理步骤,而不仅仅是简单的微调,验证了其在基准推理数据集上的有效性。
May, 2024
本研究探索了如何通过生成 “思考链” 从大型语言模型中提取出推理能力并综合常识推理能力,进而实现条件提示蒸馏,提高学生模型在 MNER 和 MRE 数据集上的效果。
Jun, 2023
本文旨在通过知识蒸馏的方式将大型语言模型的推理能力传递给较小模型,提出了一种名为 Sci-CoT 的两阶段框架,该框架通过分离生成推理步骤和推理答案的过程,在科学问答任务中利用推理步骤更有效地进行推理,使得 8000 万参数的模型在 ARC-Easy 数据集的少样本情况下超过了 BLOOM-176B 的性能。
Aug, 2023
利用连续思维蒸馏的知识蒸馏技术,通过多任务学习框架,最大化两个训练任务的特征表示的互信息,提出一种变分方法来优化小型模型的推理能力和标签预测的整合性,并在四个数据集上超越先进的 DSS 方法,为语言模型蒸馏和连续思维相关应用的未来研究提供有益指导。
Mar, 2024
该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架,使得答案推断可以更好地利用基于多模态信息的生成的理由,并取得了比先前最先进的 LLM(GPT-3.5)高 16 个百分点(75.17%-> 91.68%准确度)的性能,在 ScienceQA 基准测试中甚至超过了人类的表现。
Feb, 2023