基于 Transformer 的语言模型的自适应微调用于命名实体识别

Feb, 2022

基于 Transformer 的语言模型的自适应微调用于命名实体识别

Adaptive Fine-Tuning of Transformer-Based Language Models for Named Entity Recognition

Felix Stollenwerk

TL;DR本次研究提出了自适应微调的替代方案，使用早期停止和自定义学习速率表来动态调整训练轮数，特别针对小型数据集，我们在命名实体识别的示例用例中表现出比现有的微调算法更好的性能、稳定性和效率。

Abstract

The current standard approach for fine-tuning transformer-based language models includes a fixed number of training epochs and a linear learning rate schedule. In order to obtain a near-optimal model for the given downstream task, a search in optimization hyperparameter space is usuall

transformer-based language models optimization hyperparameter space adaptive fine-tuning early stopping named entity recognition

发现论文，激发创造

智能学习速率分配以减少转换器中的灾难性遗忘

在这篇论文中，我们研究了 transformer 神经网络中灾难性遗忘的问题，并对使用相同学习率进行整个网络微调的普遍做法提出疑问。我们通过超参数优化过程找到了比平坦学习率更好的学习率分布，并结合这些学习率分布，展示了它们在灾难性遗忘问题上的更好表现。我们通过对 GLUE 数据集的多种 NLP 基准测试验证了这些学习率分布。

Mar, 2024

探索和评估个性化代码生成模型

本文探讨评估 Transformer 模型微调来进行个性化编码生成，考虑三种方法：（i）自定义微调，（ii）轻量级微调，（iii）前缀微调，比较它们的效果和成本效益。

Aug, 2022

微调可以有多精细？学习高效语言模型

通过使用 BERT 来验证，文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时，微调只在参数空间中引入了轻微的差异，可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节，从而节省了任务特定参数存储和计算成本的开销。

Apr, 2020

超调：大型语言模型的自适应调节方法，无需借助反向传播算法

本文提出了 HyperTuning 方法用于模型适应，可以生成特定任务的参数并在大量多样化语言任务上进行多任务微调。通过在 P3、MetaICL 和 Super-NaturalInstructions 数据集上的表现，证明该方法可以有效地为新任务生成参数，并改善性能。

Nov, 2022

语言模型的元学习在线适应

通过元学习的方法，提出了一种称为 Context-aware Meta-learned Loss Scaling (CaMeLS) 的在线微调算法，可以显著提高大语言模型对文本知识的保留能力。

May, 2023

神经网络语言模型的增量适应策略

本文提出了两种优化神经网络语言模型适应新数据的方法，包括在重新采样数据上进行继续训练或插入适应性层。在 CAT 环境中应用于 SMT 系统中，这两种方法均取得了显著的改进。

Dec, 2014

Few-shot Fine-tuning 的构建：以命名实体识别为例进行语言模型预训练的试验研究

本篇研究提出了一种基于预训练模型且更贴近预训练目标的新型 few-shot fine-tuning 框架 FFF-NER，应用于命名实体识别任务上，经过一系列实验及消融研究，确认其比现有序列标记、原型元学习和提示式方法等现有方法能够更有效改善 NER 性能。

May, 2022

SPAFIT: 分层渐进调适微调预训练大型语言模型

本研究提出一种基于模型不同层次具有语言知识定位的 PEFT 方法，称为 Stratified Progressive Adaptation Fine-tuning（SPAFIT）。我们在 GLUE 基准测试中进行的实验证明，我们的 SPAFIT 方法在仅微调其他方法调整参数的一小部分情况下，优于其他 PEFT 方法。

Apr, 2024

缩小规模以进行高效参数微调指南

本文系统概述和比较了 40 多篇发表于 2019 年 2 月至 2023 年 2 月之间的参数高效微调方法，这些方法旨在通过仅训练小量参数来解决微调大型语言模型的不可行性和不实用性，提供了一种包括多种方法的分类方法，并重点关注实际效率和微调超大规模语言模型。

Mar, 2023

面向参数高效的迁移学习统一视角

本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法，将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改，定义了一组设计维度以表明不同方法的变化方向，如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究，识别了以前方法中的重要设计选择。此外，我们的统一框架使得设计元素可以在不同方法之间进行转移，从而实现了比以前更高效的 fine-tuning 方法。

Oct, 2021