PaD: 通过程序辅助精馏专门针对推理的大型模型
通过 Mixed Distillation 框架,将大语言模型的 Program-of-Thought 和 Chain-of-Thought 的能力转移到较小模型中,提高较小模型的性能,优于传统蒸馏方法,并在多路径推理中实现了令人印象深刻的准确度表现。
Dec, 2023
通过 Explanation-Guided LLMs Active Distillation (ELAD) 框架,我们引入了一种主动学习策略,以优化注释成本与模型性能之间的平衡;通过利用解释步骤中的不确定性,我们改进了高效样本选择方法;此外,我们还提出了一种定制化的 LLMM - 注释解释修订技术,以检测和修正学生模型推理中的缺陷。我们在各种推理数据集上的实验证明,我们的框架显著提高了 LLMM 知识蒸馏的效率。
Feb, 2024
本论文提出了一种新颖的基于表格推理的蒸馏方法,通过将大型语言模型(LLMs)蒸馏成专门为基于表格推理任务设计的小型模型,实验证明使用蒸馏数据进行微调的 0.22 亿参数模型(Flan-T5-base)在科学表格文本生成数据集(SciGen)上不仅显著提高了性能,而且超越了诸如 gpt-3.5-turbo 等特定 LLMs 的表现。
Sep, 2023
通过 Visual Program Distillation (VPD) 框架将大型语言模型 (LLM) 的理解能力提炼到一个具备单次前向传递解决复杂视觉任务的视觉 - 语言模型 (VLM) 上,从而改善计数、理解空间关系和组合推理等能力,并在真实世界的应用(有限数据情况下的内容管理)中得到验证。
Dec, 2023
提出了知识增强推理提炼(KARD)这一新颖的方法,以从外部知识库检索的增强知识 fine-tune 小型 LM,来生成 rationale,并且进一步提出了神经重新排序器以获取与理性产生相关的文档。该方法在知识密集型推理数据集上显著提高了小型 T5 和 Flan-T5 模型的性能。
May, 2023
本研究提出了一种名为 PLaD 的基于偏好的大型语言模型蒸馏框架,通过利用教师模型与学生模型之间的容量差异生成伪偏好对,使用排名损失重新校准学生模型对序列概率的估计,从而使学生模型更好地理解输出质量的相对优劣,而不是简单地模仿教师模型。通过在两个序列生成任务上进行广泛实验证明了 PLaD 框架的有效性。
Jun, 2024
本论文介绍了一种新颖的方法,使用大型语言模型来读取自然语言问题并生成程序作为中间推理步骤,但将求解步骤委托给运行时,如 Python 解释器,在 13 个数学、符号和算法推理任务中展示了神经大型语言模型和符号解释器之间的协同作用。
Nov, 2022
本文介绍一种名为 “Distilling step-by-step” 的新机制,该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型,并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明,相对于 finetuning 和 distillation,本机制使用更少的标注 / 非标注训练样例实现更好的性能;并且相对于 LLMs,使用明显更小的模型尺寸实现更好的性能;作者使用了 only 80% of available data on a benchmark task,就可以使用 770M T5 模型胜过 540B PaLM。
May, 2023
通过使用 Distillation Contrastive Decoding(DCD)方法,我们成功提升了大型语言模型(LLM)在推理过程中的推理能力,该方法结合了 Contrastive Chain-of-thought Prompting 和先进的蒸馏技术,包括 Dropout 和 Quantization,以解决 Contrastive Decoding(CD)的局限性,增强了模型性能。
Feb, 2024