选择性自我复习：一种提高大语言模型泛化能力的微调方法

Sep, 2024

选择性自我复习：一种提高大语言模型泛化能力的微调方法

Selective Self-Rehearsal: A Fine-Tuning Approach to Improve Generalization in Large Language Models

Sonam Gupta, Yatin Nandwani, Asaf Yehudai, Mayank Mishra, Gaurav Pandey...

TL;DR本研究解决了大语言模型微调过程中由于过拟合导致的泛化能力下降的问题。提出的选择性自我复习（SSR）方法通过利用模型的正确响应来减少模型在微调阶段的专业化，从而在多个数据集上显示出更优的泛化能力和接近标准监督微调的性能。研究结果表明，与标准微调方法相比，SSR在多个基准测试中表现出显著更小的性能下降。

Abstract

Fine-tuning Large Language Models (LLMs) on specific datasets is a common practice to improve performance on target tasks. However, this performance gain often leads to →

发现论文，激发创造

自我对弈微调将弱语言模型转化为强语言模型

通过自我对弈优化学习，无需专家对手，实现在大型语言模型中无需人工标注数据即可达到人类水平性能的研究

Jan, 2024

当扩展与LLM微调相遇：数据、模型和微调方法的影响

大语言模型的微调方法的缩放因子对模型性能的影响的系统实验结果表明，LLM finetuning 遵循微调数据量与其他缩放因子之间的幂函数乘法联合缩放规律，LLM 模型尺寸的扩大比预训练数据尺寸的扩大对 finetuning 更有益处，而仅考虑参数缩放的效果通常并不明显，同时最优的 finetuning 方法与任务和微调数据相关联，这些结果对于选择和开发 LLM finetuning 方法具有指导意义。

Feb, 2024

揭示了细调的大型语言模型的泛化能力

这篇论文研究了大型语言模型（LLMs）和它们经过微调后的变体之间的差异，尤其关注微调对LLMs内在泛化能力的影响。通过在不同任务和数据集上进行广泛的实验，研究发现微调应用于生成任务和分类任务的模型在泛化到不同领域和任务时表现出不同的行为，并且在生成任务的微调中整合上下文学习策略可以增强模型的泛化能力。通过这一系统性研究，旨在为LLMs的微调实践做出有价值的贡献。

Mar, 2024

用于鲁棒语言模型微调的自动数据整理

通过自动数据加工管道CLEAR (Confidence-based LLM Evaluation And Rectification)对指令调谐数据集进行自动加工，提高模型性能。

Mar, 2024

從原則出發的數據選擇，為LLMs的預熱微調提供更多、花費更少

使用无标签开放数据进行预精调预训练语言模型以最小化领域特定数据需求，并在达到预期性能水平的同时选择数据以将预训练分布推向目标分布的优化方法，展示了该方法在各种任务中的优越性和快速性，为经济高效的微调奠定了基础。

May, 2024

大型语言模型（LLM）在低资源环境中不同有效微调方法的比较分析

该研究探讨了大型语言模型的细调策略，发现可替代方法在领域外泛化方面与标准方法相媲美，强调了对有效提示的需求，并针对可用资源和任务适应性进行合适的细调方法选择。

May, 2024

低秩微调LLMs：公平视角

研究表明低秩逼近Fine-Tuning在捕捉Fine-Tuning数据集从初始预训练数据分布中的转变方面具有不足之处，会产生不可忽视的副作用，包括在针对有毒模型和提供公平模型的情景下意外保留不合理的偏差和有毒行为。此外，对于顺序决策任务，需要进行仔细评估以促进负责任的大型语言模型开发。

May, 2024

大型语言模型的性能误区揭秘：微调与失败？

研究探讨了大型语言模型在细调、提取上下文数据和性能增强方面的影响，以及它们在多个领域的应用情况，并指出了细调模型在特定任务中性能下降的问题。

Jun, 2024

抛弃糟粕保留精华：关于大规模语言模型微调中的数据选择的思考

大规模语言模型的数据选择旨在从给定的候选数据集中选择一个高质量的子集，以训练一个挂起的微调模型进而得到一个选择性增强模型，以提高模型性能并加快训练进程。通过深入的分析和综述，我们发现具有数据特定和模型特定质量标签的更具针对性的方法具有更高的效率，但在设计选择算法时应避免引入额外的噪声信息，并总结了数据选择的趋势并强调了未来研究所面临的短期和长期挑战。

Jun, 2024

从基础到突破的最终指南：大型语言模型微调的全面技术、研究、最佳实践、应用研究挑战与机遇综述

本报告探讨了大型语言模型（LLMs）的微调，结合理论见解与实践应用，填补了传统自然语言处理（NLP）模型到AI关键角色之间的研究空白。报告引入了一个结构化的七阶段微调流程，并强调管理不平衡数据集和优化技术。显著发现是采用高效参数方法能够在计算效率和性能之间取得良好平衡，报告为研究者和从业者提供了实用的见解。

Aug, 2024