评估参数效率学习用于生成

Oct, 2022

Evaluating Parameter Efficient Learning for Generation

Peng Xu, Mostofa Patwary, Shrimai Prabhumoye, Virginia Adams, Ryan J. Prenger...

TL;DR本文从三个新的角度比较PERMs和finetuning，发现在训练样本较少情况下PERMs的表现更好且PLMs越大，表现越突出；Adapter在任务数据集较小时优于finetuning；PERMs能够比finetuning更好地实现生成的忠实度，特别是对于小训练集而言。最后，作者将Adapter应用于MT-NLG 530b，取得了Xsum数据集ROUGE-1 49.17，ROUGE-2 27.20以及ROUGE-L 40.98的全新state-of-the-art结果。

Abstract

parameter efficient learning methods (PERMs) have recently gained significant attention as they provide an efficient way for pre-trained language models (PLMs) to adapt to a downstream task. However, these conclu

发现论文，激发创造

参数的重要性：一种用于提高性能的内部蒸馏方法

本文提出了一种基于intra-distillation和自适应学习的通用方法，用于平衡所有参数的灵敏度，从而提高模型的普适性和性能表现。实验结果表明，该方法有效地提升了机器翻译、自然语言理解和零-shot跨语言转移等不同领域的表现。

May, 2022

关于预训练语言模型的领域自适应和泛化：一项综述

本文介绍了近年来自然语言处理中预训练语言模型（PLMs）的最新进展，并为适应目标领域提供了一种有效的方法。考察了PLMs的应用问题并提出了域自适应方法的分类方案，包括输入扩充、模型优化和个性化等方法。

Nov, 2022

基于实证分析的PEFT技术在LLM中的优势和劣势

本文主要介绍了大型语言模型的fine-tuning方法——parameter-efficient fine-tuning（PEFT），并通过对FLAN-T5模型的综合测试和分析，提出了选择fine-tuning技术的最佳方法，重点考虑任务类型和数据可用性，同时指出了PEFT方法在数据过少的情况下的收敛速度慢的问题，提出了更好的model optimization方法。

Apr, 2023

蒸馏逐步！用更少的训练数据和更小的模型尺寸胜过更大的语言模型

本文介绍一种名为“Distilling step-by-step”的新机制，该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型，并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明，相对于 finetuning 和 distillation，本机制使用更少的标注/非标注训练样例实现更好的性能；并且相对于 LLMs，使用明显更小的模型尺寸实现更好的性能；作者使用了 only 80% of available data on a benchmark task，就可以使用 770M T5 模型胜过 540B PaLM。

May, 2023

预训练模型训练数据指南: 测量数据的年龄、领域覆盖、质量和毒性的影响

对预训练数据合理性进行了研究，为语言模型开发做出了数据方面的决策提供支持。

May, 2023

基于条件生成的大型语言模型性能基准测试

本文提出如何将 PLMs 应用到现有应用程序特定的生成基准上，对输入和输出语言等不同维度的 PLMs 在自然语言生成任务方面的优点和局限性进行了深入的实证研究，并分享了在开发新 PLMs 时考虑到的基准生成能力的最佳实践。

Jun, 2023

MAPLE: 多语言大语言模型参数高效微调的评估

通过参数高效微调能够提高大语言模型的性能，而无需大量的资源和计算。对多语言评估的先前研究表明，英语和其他语言在性能上存在很大差距。此外，开源模型和较大规模的语言模型之间也存在差距。微调是弥合差距、使语言模型更加公平的有效方法。本研究通过对合成多语言指示微调数据上进行 LLaMA-7B 和 Mistral-7B 模型的微调，以评估其对模型在涵盖 23 种语言的五个下游任务上的性能影响。此外，我们还在低秩适应的等级和量化值上进行了实验，以确定它们对下游性能的影响并发现较高的等级和量化值有益于低资源语言。我们发现通过参数高效微调较小的开源模型有时可以弥合这些模型和较大模型性能之间的差距，但对英语性能有所降低。我们还发现微调有时可以提高低资源语言的性能，但在高资源语言上性能可能会下降。

Jan, 2024

当扩展与LLM微调相遇：数据、模型和微调方法的影响

大语言模型的微调方法的缩放因子对模型性能的影响的系统实验结果表明，LLM finetuning 遵循微调数据量与其他缩放因子之间的幂函数乘法联合缩放规律，LLM 模型尺寸的扩大比预训练数据尺寸的扩大对 finetuning 更有益处，而仅考虑参数缩放的效果通常并不明显，同时最优的 finetuning 方法与任务和微调数据相关联，这些结果对于选择和开发 LLM finetuning 方法具有指导意义。

Feb, 2024

揭示了细调的大型语言模型的泛化能力

这篇论文研究了大型语言模型（LLMs）和它们经过微调后的变体之间的差异，尤其关注微调对LLMs内在泛化能力的影响。通过在不同任务和数据集上进行广泛的实验，研究发现微调应用于生成任务和分类任务的模型在泛化到不同领域和任务时表现出不同的行为，并且在生成任务的微调中整合上下文学习策略可以增强模型的泛化能力。通过这一系统性研究，旨在为LLMs的微调实践做出有价值的贡献。

Mar, 2024

数据激发您的快乐吗？培训结束时的领域上采样带来的性能提升

通过对小型领域专用数据集进行上采样，以驱动性能在困难基准测试上的改进，本研究揭示了在多样性的一般网络抓取和领域专用数据信息密度之间寻求平衡的最佳方法。

Jun, 2024