MEND: 元演示蒸馏用于高效有效的上下文学习

ICLRMar, 2024

MEND: 元演示蒸馏用于高效有效的上下文学习

MEND: Meta dEmonstratioN Distillation for Efficient and Effective In-Context Learning

Yichuan Li, Xiyao Ma, Sixing Lu, Kyumin Lee, Xiaohu Liu...

TL;DR通过元知识蒸馏，Meta dEmonstratioN Distillation (MEND) 实现了对大型语言模型的演示的压缩，从而提高了其效率和可扩展性。

Abstract

large language models (LLMs) have demonstrated impressive in-context learning (ICL) capabilities, where a LLM makes predictions for a given test input together with a few input-output pairs (→

large language models in-context learning demonstrations mend efficiency

发现论文，激发创造

迭代前向调整促进语言模型内部学习

本研究提出了一种有效的、高效的两阶段方法来增强大型语言模型中的上下文学习，该方法利用 Transformer 注意力和梯度下降优化之间的双重形式，将上下文学习过程分为 'Thinking' 和推理阶段，通过递归前向优化演示来增强 LLLs 的推理能力，并且将得到的元梯度通过注意力应用于最终的输出预测中，从而有效地、高效地适应下游任务。

May, 2023

大型语言模型的多阶段协作知识蒸馏

我们提出了一种多阶段协同知识蒸馏方法，用于稀缺标记数据的半监督序列预测任务，通过从提示的大型语言模型中蒸馏出的学生模型，在特定任务上能够更好地泛化，且在两个句法分析任务上表现出了优势。

Nov, 2023

零样本上下文学习的演示增强

我们提出了一种名为 Demonstration Augmentation for In-context Learning (DAIL) 的方法，通过利用模型之前预测的历史样本作为后续样本的演示，来解决大型语言模型在零 - shot 学习中依赖外部信息并且生成过程耗时的问题，同时在没有任何外部信息的情况下，DAIL 不增加推理成本可以显著提高模型的性能。

Jun, 2024

SeCoKD: 对大型语言模型进行上下文学习的对齐方法，更少的示例

我们研究了如何减少示范数量，同时保持竞争性能。我们提出了 SeCoKD，一种自我知识蒸馏训练框架，通过将学生模型与大量提示变体对齐，从而提高单个示范的利用率。结果表明我们的方法在零示范和一示范设置中分别比基准模型和监督微调 (SFT) 的性能高出 30％和 10％。此外，SeCoKD 在新任务评估时几乎没有负面作用，比监督微调更稳健。

Jun, 2024

探索上下文学习的演示集成

探讨在语境学习中采用演示集成作为对简单串联的替代方法，并研究利用 GPT-j 模型进行不同集成方法的实验，结果显示加权最大集成优于简单串联平均 2.4 个点。

Aug, 2023

统一演示选择与压缩以实现上下文学习

ICL 的框架 UniICL 通过一个冻结的 LLM 统一了演示选择、演示压缩和响应生成，并实现了有效的缩放，从 4-shot 到 64-shot 的 ICL 提高了 12 倍。

May, 2024

小数据场景中高效自然语言理解的生成 - 蒸馏方法

通过 generation-distillation 训练方法，利用大型 fine-tuned 语言模型生成无标签训练数据，通过知识蒸馏技术将这些数据的知识转移给小型网络，从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距，实现了使用更少的参数（仅为 BERT 的 300 倍）达到与 BERT 可比的性能。

Jan, 2020

MAGIC：元能力引导下的有效高效视觉语言导航链式蒸馏

这篇论文介绍了使用知识蒸馏来获得轻量级学生模型的巨大潜力，其中提出了一种元能力引导的交互式蒸馏链（MAGIC）方法，该方法可帮助将大型模型集成到机器人技术中，该方法在视听导航任务中超越了现有的先前方法，同时提出了一种新的数据集，展示了 MAGIC-S 模型在我们的生活环境中超越的性能和实时效率。

Jun, 2024

通过隐式示范增强上下文学习

在这篇论文中，我们首次从演示增强的角度来解决上下文学习的挑战，通过丰富演示的表示以及集成特定的统计特性，我们提出了一种简单但高效的方法，显著提高了各种预训练语言模型和任务的平均和最坏情况准确性，并有效减少了不同演示、排列和模板之间的性能差异，并且具备处理不平衡类别分布的能力。

Jun, 2024

MixKD：大规模语言模型高效蒸馏

提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD，大幅度降低了一些实践性问题的影响，提升了大规模语言模型的泛化能力，实现了比标准 KD 培训更好的性能表现，能用于低资源平台上的应用。

Nov, 2020