PaD: 通过程序辅助精馏专门针对推理的大型模型

May, 2023

PaD: 通过程序辅助精馏专门针对推理的大型模型

PaD: Program-aided Distillation Specializes Large Models in Reasoning

Xuekai Zhu, Biqing Qi, Kaiyan Zhang, Xingwei Long, Bowen Zhou

TL;DR提出了 Program-aided Distillation（PaD）算法，该算法使用程序辅助推理强化可特化的模型，并通过自动化错误检查帮助它们克服错误的推理步骤，实验证明 PaD 具有比 LLMs 更高的训练效率，并能显著提高推理能力。

Abstract

While large language models (LLMs) excel in several natural language processing tasks, their size and inaccessibility present challenges for extensive practical application. Previous studies acquire specialized skills through →

large language models distillation reasoning program-aided distillation training efficiency

发现论文，激发创造

混合蒸馏助于小型语言模型更好地进行推理

通过 Mixed Distillation 框架，将大语言模型的 Program-of-Thought 和 Chain-of-Thought 的能力转移到较小模型中，提高较小模型的性能，优于传统蒸馏方法，并在多路径推理中实现了令人印象深刻的准确度表现。

Dec, 2023

ELAD：解释引导的大型语言模型主动蒸馏

通过 Explanation-Guided LLMs Active Distillation (ELAD) 框架，我们引入了一种主动学习策略，以优化注释成本与模型性能之间的平衡；通过利用解释步骤中的不确定性，我们改进了高效样本选择方法；此外，我们还提出了一种定制化的 LLMM - 注释解释修订技术，以检测和修正学生模型推理中的缺陷。我们在各种推理数据集上的实验证明，我们的框架显著提高了 LLMM 知识蒸馏的效率。

Feb, 2024

LLMs 的有效表格推理能力提炼

本论文提出了一种新颖的基于表格推理的蒸馏方法，通过将大型语言模型（LLMs）蒸馏成专门为基于表格推理任务设计的小型模型，实验证明使用蒸馏数据进行微调的 0.22 亿参数模型（Flan-T5-base）在科学表格文本生成数据集（SciGen）上不仅显著提高了性能，而且超越了诸如 gpt-3.5-turbo 等特定 LLMs 的表现。

Sep, 2023

视觉程序蒸馏：将工具和编程推理融入视觉 - 语言模型

通过 Visual Program Distillation (VPD) 框架将大型语言模型 (LLM) 的理解能力提炼到一个具备单次前向传递解决复杂视觉任务的视觉 - 语言模型 (VLM) 上，从而改善计数、理解空间关系和组合推理等能力，并在真实世界的应用（有限数据情况下的内容管理）中得到验证。

Dec, 2023

知识增强的推理蒸馏：面向知识密集型任务的小型语言模型

提出了知识增强推理提炼（KARD）这一新颖的方法，以从外部知识库检索的增强知识 fine-tune 小型 LM，来生成 rationale，并且进一步提出了神经重新排序器以获取与理性产生相关的文档。该方法在知识密集型推理数据集上显著提高了小型 T5 和 Flan-T5 模型的性能。

May, 2023

PLaD: 偏好基的大型语言模型压缩与伪优选对

本研究提出了一种名为 PLaD 的基于偏好的大型语言模型蒸馏框架，通过利用教师模型与学生模型之间的容量差异生成伪偏好对，使用排名损失重新校准学生模型对序列概率的估计，从而使学生模型更好地理解输出质量的相对优劣，而不是简单地模仿教师模型。通过在两个序列生成任务上进行广泛实验证明了 PLaD 框架的有效性。

Jun, 2024

程序辅助语言模型

本论文介绍了一种新颖的方法，使用大型语言模型来读取自然语言问题并生成程序作为中间推理步骤，但将求解步骤委托给运行时，如 Python 解释器，在 13 个数学、符号和算法推理任务中展示了神经大型语言模型和符号解释器之间的协同作用。

Nov, 2022

通过解释解决方案程序提取 LLM 中的算法推理

通过解释解决方案来提取大型语言模型的推理能力，并将其应用于解决有竞争水平的编程挑战，从而实现了更高的解决率。

Apr, 2024

蒸馏逐步！用更少的训练数据和更小的模型尺寸胜过更大的语言模型

本文介绍一种名为 “Distilling step-by-step” 的新机制，该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型，并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明，相对于 finetuning 和 distillation，本机制使用更少的标注 / 非标注训练样例实现更好的性能；并且相对于 LLMs，使用明显更小的模型尺寸实现更好的性能；作者使用了 only 80% of available data on a benchmark task，就可以使用 770M T5 模型胜过 540B PaLM。

May, 2023

蒸馏对比解码：通过对比解码和蒸馏提高 LLMs 的推理能力

通过使用 Distillation Contrastive Decoding（DCD）方法，我们成功提升了大型语言模型（LLM）在推理过程中的推理能力，该方法结合了 Contrastive Chain-of-thought Prompting 和先进的蒸馏技术，包括 Dropout 和 Quantization，以解决 Contrastive Decoding（CD）的局限性，增强了模型性能。

Feb, 2024