用任务感知课程计划对大型语言模型进行指令遵循能力提炼

May, 2024

用任务感知课程计划对大型语言模型进行指令遵循能力提炼

Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning

Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang

TL;DR任务感知课程规划的指导下，使用动态难度调整的多轮精馏框架 TAPIR 提供平衡的任务分布，通过升级难度水平逐步提升学生 LLM 的能力，并经过两个广泛认可的基准测试验证，结果表明使用我们的方法及较少的训练数据训练的学生 LLMs 在复杂任务中（如逻辑推理和代码生成）优于较大的经过指导调整的模型和强大的精馏基准线。

Abstract

The process of instruction tuning aligns pre-trained large language models (LLMs) with open-domain instructions and human-preferred responses. While several studies have explored autonomous approaches to distilli

instruction tuning language models task-aware curriculum planning distillation student llms

发现论文，激发创造

蒸馏逐步！用更少的训练数据和更小的模型尺寸胜过更大的语言模型

本文介绍一种名为 “Distilling step-by-step” 的新机制，该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型，并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明，相对于 finetuning 和 distillation，本机制使用更少的标注 / 非标注训练样例实现更好的性能；并且相对于 LLMs，使用明显更小的模型尺寸实现更好的性能；作者使用了 only 80% of available data on a benchmark task，就可以使用 770M T5 模型胜过 540B PaLM。

May, 2023

指导调优的动力学：大型语言模型中的每个能力都有自己的增长速度

基于全面的模型性能至诚态度，我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响，并通过新的 40k 人工指导的指令数据集进行了数百个模型检查点（7b 到 33b）的全面指导优化。我们的研究揭示了三个主要发现：（i）尽管数据量和参数规模直接影响模型的整体性能，但某些能力更容易受到其增加的影响，并且可以通过有限数据进行有效训练，而某些能力对这些变化高度抵抗。（ii）人工指导的数据在效率上明显优于 GPT-4 的合成数据，并且可以随着数据量增加不断提高模型性能，而合成数据则无法达到这种效果。（iii）指令数据带来了强大的跨能力泛化性，域外数据的评估结果反映了前两个观察结果。此外，我们还展示了这些发现如何指导更高效的数据构建，从而在公共基准测试中实现实际性能的提升。

Oct, 2023

子目标蒸馏：提升小型语言代理的方法

通过层次化代理模型和知识蒸馏，将大型语言模型的性能通过转移学习到小型语言模型，在科学世界的多任务交互文本环境中胜过其他大型语言模型方法，从而提高了效率。

May, 2024

依据学生的学习水平定制指导方案提升知识蒸馏

本文提出了一种名为 LGTM 的有效教师培训技术，该技术通过引入蒸馏影响概念来确定每个训练样本对学生泛化能力的影响，通过优先选择可能增强学生泛化能力的样本，在 GLUE 基准测试数据集的 6 项文本分类任务中，LGTM 比其他 10 种常见的知识蒸馏基线表现更好。

May, 2023

教学助理在低预算场景中提高从不完美教师模型的知识蒸馏

通过提出一个三组件框架，利用自洽性、鉴别性和教师的不确定性作为学生培训的三种信号，我们在资源受限、教师性能不完美的场景中提高了样本效率。实验证明，相较于没有任何信号进行微调的情况，我们提出的两阶段框架平均带来了 20.79% 左右的相对提升，适用于四个复杂推理任务。

Jun, 2024

民主化推理能力：从大型语言模型的个性化学习

通过多轮互动学习范式和自我反思学习，我们提出了一种定制化学习方法，从而将推理能力传授给较小的语言模型，以促进推理能力的开放和普及。

Oct, 2023

从视觉语言模型中提炼，以改善视觉任务中的 OOD 泛化能力

Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.

Oct, 2023

Instruct-Align：基于对齐的跨语言教学，教授 LLMs 的新语言

本研究提出了 Instruct-Align 框架，通过对称对齐方法的跨语言指导调整，使大语言模型 (LLMs) 能够有效地学习新语言，同时通过经验重现防止灾难性遗忘，并能将低资源语言纳入到现有的 LLMs 中。

May, 2023

指令微调语言模型的扩展

本文研究了在指令集合中对语言模型进行微调以改善其性能及推广其应用的方法，重点探讨了任务规模的扩展、模型大小的扩展和链式推理数据的微调，发现通过上述方面的微调显著提高了包括 PaLM、T5、U-PaLM 在内的各种模型类别，在零样本、少样本和 CoT 环境中的表现，以及在多项基准测试中的表现。

Oct, 2022

LLMs 的有效表格推理能力提炼

本论文提出了一种新颖的基于表格推理的蒸馏方法，通过将大型语言模型（LLMs）蒸馏成专门为基于表格推理任务设计的小型模型，实验证明使用蒸馏数据进行微调的 0.22 亿参数模型（Flan-T5-base）在科学表格文本生成数据集（SciGen）上不仅显著提高了性能，而且超越了诸如 gpt-3.5-turbo 等特定 LLMs 的表现。

Sep, 2023