子目标蒸馏:提升小型语言代理的方法
本文介绍一种名为 “Distilling step-by-step” 的新机制,该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型,并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明,相对于 finetuning 和 distillation,本机制使用更少的标注 / 非标注训练样例实现更好的性能;并且相对于 LLMs,使用明显更小的模型尺寸实现更好的性能;作者使用了 only 80% of available data on a benchmark task,就可以使用 770M T5 模型胜过 540B PaLM。
May, 2023
通过 generation-distillation 训练方法,利用大型 fine-tuned 语言模型生成无标签训练数据,通过知识蒸馏技术将这些数据的知识转移给小型网络,从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距,实现了使用更少的参数(仅为 BERT 的 300 倍)达到与 BERT 可比的性能。
Jan, 2020
通过 Mixed Distillation 框架,将大语言模型的 Program-of-Thought 和 Chain-of-Thought 的能力转移到较小模型中,提高较小模型的性能,优于传统蒸馏方法,并在多路径推理中实现了令人印象深刻的准确度表现。
Dec, 2023
我们提出一种将问题分解为问题分解阶段和问题解决阶段的策略,并证明该策略能够优于单阶段解决方案。通过在结合问题解决 LLMs 的同时利用较小的问题分解模型,我们能够实现具有高效推理和局部适应性的推理。
Feb, 2024
通过 Explanation-Guided LLMs Active Distillation (ELAD) 框架,我们引入了一种主动学习策略,以优化注释成本与模型性能之间的平衡;通过利用解释步骤中的不确定性,我们改进了高效样本选择方法;此外,我们还提出了一种定制化的 LLMM - 注释解释修订技术,以检测和修正学生模型推理中的缺陷。我们在各种推理数据集上的实验证明,我们的框架显著提高了 LLMM 知识蒸馏的效率。
Feb, 2024
本文首次定义了有约束语言规划的任务,并提出了一种过度生成和过滤的方法,以提高大语言模型在此任务中的性能,并使用此方法提取了一个由 55,000 个脚本组成的 CoScript 数据集,并在实验结果中证明了我们的方法显着提高了大型语言模型的有约束语言规划能力,特别是在约束忠实度方面。此外,CoScript 证明对于赋予较小语言模型具有受限语言规划能力是相当有效的。
May, 2023
通过离线强化学习将大型语言模型(LLM)的分解能力融入紧凑模型,我们利用 LLM 能力的进步提供反馈并生成专门的任务特定数据集来训练紧凑模型,该研究的主要贡献是开发了一个 AI 生成的数据集和建立了基线,强调了紧凑模型在复制复杂问题解决能力方面的潜力。
Feb, 2024
本研究提出了一种方法,将大型语言模型(LLMs)的知识提炼为一个更小、更高效且准确的神经网络,以实现在资源受限设备上部署这些模型的挑战。我们的方法包括使用 LLM 的预测概率训练较小的学生模型,作为教师模型,通过专门设计的损失函数来学习 LLM 的输出概率,确保学生模型能够准确模仿教师模型的性能。通过对包括 6,684 个学生撰写的科学问题回答及其他数据集的测试,我们将性能与原始神经网络(NN)模型进行了比较,结果显示对于 7T 数据集,NN 模型和提炼的学生模型的准确率与教师模型相当;然而,其他数据集显示 NN 模型的准确率显著较低(平均 28%),然而我们的提炼模型仍然能够比 NN 模型获得更高 12% 的准确率。此外,学生模型的参数大小为 0.1M 至 0.02M,相较于原始输出模型大小减小了 100 倍和 10 倍。该研究的重要性在于其为自动评分在典型教育环境中的运用提供了潜力。
Dec, 2023
我们提出了一种解决 BabyLM 挑战的方法,目标是提高语言模型的样本效率。我们在一个有发展潜力的 BabyLM 数据集上训练了一个由 GPT-2 和小型 LLaMA 模型组成的集成模型,然后将其蒸馏成一个小型的 58M 参数 LLaMA 模型,它在性能上超过了两个教师模型以及没有蒸馏训练的类似模型。这表明,蒸馏不仅可以保持教师模型的全部性能,在后者被训练在足够小的数据集上时,还可以超过教师模型的性能,并且比直接训练要表现得更好。
Aug, 2023