通过监督微调向大规模语言模型注入新知识

Mar, 2024

通过监督微调向大规模语言模型注入新知识

Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning

Nick Mecklenburg, Yiyou Lin, Xiaoxiao Li, Daniel Holstein, Leonardo Nunes...

TL;DR研究了在最新的体育事件领域中，通过具有监督的微调方法对大规模语言模型进行知识注入的有效性，并比较了基于令牌和基于事实缩放的不同数据集生成策略，发现基于事实缩放提供了更为系统的方法来确保对所有事实的均匀覆盖。通过 SFT 进行更有效的知识吸收，从而显著提高了与领域外知识相关的问答任务的性能，为领域适应性和提高大规模语言模型响应准确性的潜力做出了贡献。

Abstract

In recent years, large language models (LLMs) have shown remarkable performance in generating human-like text, proving to be a valuable asset across various applications. However, adapting these models to incorporate new, out-of-domain knowledge remains a challenge, particularly for fa

large language models supervised fine-tuning knowledge injection dataset generation domain adaptation

发现论文，激发创造

知识感知的大语言模型微调

使用知识感知微调（KnowTuning）方法解决大型语言模型在自然语言处理任务中的知识感知不足问题，并在通用和医疗问答数据集上进行了广泛的实验证明了其有效性，并展示了其在未知问答数据集上的泛化能力。

Feb, 2024

利用混合自然语言反馈对语言模型进行微调的 LaFFi

该论文介绍了一种名为自然语言反馈微调 LLM（LaFFi）的替代方法，通过要求 LLM 直接预测从评注者那里得到的反馈，显著提高了领域内问答任务的准确性，为自然语言反馈在 SFT LLMs 领域的应用提供了一个有前途的方向。

Dec, 2023

微调还是检索？LLMs 中知识注入的比较

比较 fine-tuning 和 retrieval-augmented generation (RAG) 两种方法，发现 RAG 在不同主题的知识密集型任务中始终优于 fine-tuning，并且 LLMs 在 fine-tuning 中难以学习新的事实信息，通过在训练过程中暴露它们于相同事实的多个变体可以缓解这个问题。

Dec, 2023

大型语言模型的能力受监督微调数据组成的影响

通过研究大型语言模型在数据组成、数学推理、代码生成和精细调整策略等方面的能力，发现不同能力展现出不同的扩展模式，较大的模型在相同数据量下表现更好；数据组成在低数据量下会改善各种能力，而在高数据量下可能导致能力冲突；而我们提出的双阶段混合精细调整策略能够解决多个能力的学习问题。

Oct, 2023

大型语言模型学习数学推理的规模关系

探索大型语言模型中数学推理的挑战，研究预训练损失、监督数据量和增强数据量对监督型语言模型推理性能的影响，发现预训练损失是模型性能的更好指标，应用不同数量的监督数据和拒绝抽样微调来改善模型性能，发现增加数据量与模型性能呈对数线性关系，增加更多不同推理路径的数据样本能进一步改善语言模型的数学推理性能。

Aug, 2023

使用小型语言模型来微调大型语言模型的仿真器

通过借鉴 RL 的框架，引入了一种名为模拟微调（EFT）的技术，从而将预训练和微调的知识与技能解耦，并且通过扩大微调的规模来提高可帮助性，扩大预训练的规模来提高事实性，从而实现在测试时调整不同行为特征的方法，而无需额外训练。

Oct, 2023

对大型语言模型进行少样本多语言 NLU 分析与适应：如今已经达到目标了吗？

三种常用方法，即监督微调、监督指令微调和上下文学习，是少样本学习的三种替代方法。本文对这三种方法进行了广泛而系统的比较，测试了六种高低资源语言、三种不同的 NLU 任务以及各种语言和领域设置。观察结果显示，监督指令微调在性能和资源需求方面具有最佳平衡性。此外，本文还分析了预训练 LLM 的目标语言适应性，并发现标准适应方法能在表面上提高目标语言生成能力，但经 ICL 引发的语言理解并未改善且受限，尤其是对于低资源语言而言，得分较低。

Mar, 2024

自我对弈微调将弱语言模型转化为强语言模型

通过自我对弈优化学习，无需专家对手，实现在大型语言模型中无需人工标注数据即可达到人类水平性能的研究

Jan, 2024

通过高效微调进行时间敏感知识编辑

通过研究发现，Parameter-Efficient Fine-Tuning (PEFT) 技术相较于定位和编辑方法，在时效性知识编辑方面表现更优，从而为大型语言模型的更新提供了一种替代方案。

Jun, 2024

大型语言模型中的知识保留：一种模型无关的自解压缩方法

通过引入一种新颖的模型无关的自解压缩方法 Tree Generation（TG），该方法将 LLMs 内的知识解压缩到训练语料库中，并在多模态大型语言模型中应用该方法，显著减少遗忘问题。

Jun, 2024