Sci-CoT：利用大型语言模型增强科学问答中小模型的知识蒸馏

Aug, 2023

Sci-CoT：利用大型语言模型增强科学问答中小模型的知识蒸馏

Sci-CoT: Leveraging Large Language Models for Enhanced Knowledge Distillation in Small Models for Scientific QA

Yuhan Ma, Haiqi Jiang, Chenyou Fan

TL;DR本文旨在通过知识蒸馏的方式将大型语言模型的推理能力传递给较小模型，提出了一种名为 Sci-CoT 的两阶段框架，该框架通过分离生成推理步骤和推理答案的过程，在科学问答任务中利用推理步骤更有效地进行推理，使得 8000 万参数的模型在 ARC-Easy 数据集的少样本情况下超过了 BLOOM-176B 的性能。

Abstract

large language models (LLMs) have shown outstanding performance across wide range of downstream tasks. This competency is attributed to their substantial parameter size and pre-training on extensive corpus. Moreover, LLMs have exhibited enhanced →

large language models reasoning capabilities knowledge distillation sci-cot scientific question-answering

发现论文，激发创造

SCOTT: 自洽思维串讲压缩

提出了一种知识蒸馏方法以学习从比自身大几个数量级的大型语言模型中生成一致合理的解释的小型自洽 Chain-of-Thought（CoT）模型，它使用教师模型生成的合理解释来学习学生模型，并使用对抗性约束来保证学生模型保持一致性和反事实推理，实验结果表明，这种方法可以更好地生成有利于提高性能的 CoT 解释。

May, 2023

通过语义分解将大型语言模型的多步推理能力浓缩为更小的模型

本研究提出对大型语言模型进行知识蒸馏的方法，利用链式思考等分步推理技术来促进推理能力并提高模型性能，通过分解、训练和求解等步骤实现问题的分解和求解，比链式思考方法性能更佳，可广泛应用于数学问题等多场景中。

Dec, 2022

小型语言模型是否能帮助大型语言模型更好地进行推理？：LM 引导下的思路链

我们引入了一种新颖的框架，LM-Guided CoT，它利用轻量级（即 <1B）语言模型（LM）指导黑盒大型（即> 10B）LM 在推理任务中的工作。具体而言，轻量级 LM 首先为每个输入实例生成理论依据，接着使用冻结的大型 LM 根据轻量级 LM 生成的理论依据预测任务输出。我们的方法在资源利用上高效，只需要训练轻量级 LM。我们通过知识蒸馏和强化学习来优化模型，其中蒸馏和任务导向的奖励信号用于强化学习。我们通过多跳摘要问答基准 HotpotQA 和 2WikiMultiHopQA 来评估我们的方法。实验结果表明，我们的方法在回答预测准确性方面优于所有基准方法。我们还发现，强化学习有助于模型生成更高质量的理论依据，并提高问答的性能。

Apr, 2024

T-SciQ: 通过大语言模型信号进行多模态思维推理教学，用于科学问答

提出了一种名为 T-SciQ 的新方法，通过使用 LLM 信号生成高质量的思维链标理，训练具有 CoT 推理能力的模型并在科学问题回答中获得了最新的最高性能。

May, 2023

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023

基于知识驱动的协同训练：探索 LLMs 中的忠实推理与知识密集型问答

通过与外部知识的交互，我们提出了一个名为知识驱动的思路连贯（KD-CoT）的框架，以验证和修改语言模型的推理过程，以缓解幻觉和错误传播，尤其在回答知识密集型任务时。

Aug, 2023

混合蒸馏助于小型语言模型更好地进行推理

通过 Mixed Distillation 框架，将大语言模型的 Program-of-Thought 和 Chain-of-Thought 的能力转移到较小模型中，提高较小模型的性能，优于传统蒸馏方法，并在多路径推理中实现了令人印象深刻的准确度表现。

Dec, 2023

mCoT: 多语言指导调整以提升语言模型的推理一致性

通过多语言推理一致性研究，我们构建了第一个大规模的多语言数学推理数据集 mCoT-MATH，然后引入多语言 CoT 指令调节以提高模型的推理能力和一致性。我们的 7B 参数模型 mCoT 在各种语言上展现出惊人的一致性，并且在性能上优于或与更大规模的闭源和开源模型相媲美。

Jun, 2024

大型语言模型是推理教师

本研究提出了 Fine-tune-CoT 方法，该方法利用非常大的语言模型以生成推理样本并通过微调来教授较小的模型，从而在较小的模型中实现了大量的推理能力优化。

Dec, 2022

MCC-KD: 多 CoT 一致知识蒸馏

通过 Multi-CoT 一致知识蒸馏 (MCC-KD) 方法，我们提出了一种提升大型语言模型的推理能力、实现多样性和一致性的方法，并验证其在数学推理和常识推理的基准测试中的优秀性能和鲁棒泛化能力。

Oct, 2023