预训练语言模型的跨度微调

EMNLPAug, 2021

Span Fine-tuning for Pre-trained Language Models

Rongzhou Bao, Zhuosheng Zhang, Hai Zhao

TL;DR本文提出了一种新颖的跨度微调算法，利用基于卷积神经网络的层次结构增强了预训练语言模型，并在 GLUE 基准下显著提升了其性能。

Abstract

pre-trained language models (PrLM) have to carefully manage input units when training on a very large text with a vocabulary consisting of millions of words. Previous works have shown that incorporating span-level infor

pre-trained language models span-level information fine-tuning method hierarchical cnn module glue benchmark

发现论文，激发创造

FreeLM：无微调语言模型

本文提出了一种新颖的无微调的自然语言处理模型 Fine-tuning-free strategy，通过使用语言和强任务感知的 teacher signal 进行交互式训练，提高了该模型在多项任务中的泛化性和鲁棒性，并且相对于大型模型如 GPT-3 和 InstructGPT 而言，该模型较小，只有 0.3B 的参数。

May, 2023

SPDF：大型语言模型的稀疏预训练和密集微调

本文提出了一种基于稀疏先训练和密集微调的预训练语言模型方法，可将训练 FLOPs 的数量降低到原来的 2.5 倍，同时保持与密集基线相同的下游任务准确性。该方法为训练大规模 GPT 模型提供了一个可行的方向。

Mar, 2023

语言模型与跨语言序列标注之间的桥梁

本篇论文提出 Cross-lingual Language Informative Span Masking (CLISM) 和 ContrAstive-Consistency Regularization (CACR) 两种方法来缩小预先训练和微调阶段之间的差距，并以多语言对齐为目标对跨语言机器阅读理解（xMRC）进行改进。实验结果表明，这些方法在多个 xSL 基准测试中取得了显著优越的结果，并且在只有几百个训练示例可用的少量数据设置中超过了以前的最新方法。

Apr, 2022

注入语义依存关系的微调

应用语言模型结构代替任务特定的监督并使用卷积图编码器通过显式引入语义解析提高 NLU 任务的性能。

Dec, 2020

序列标注的语言模型剪枝：高效的上下文表示

本研究提出了一种基于稀疏性诱导正则化的层选择方法，用于压缩大型预训练语言模型，以提高特定任务的计算效率，并在两个基准数据集上进行了实验验证其有效性。

Apr, 2018

使用弱监督微调预训练语言模型：一种对比正则自训练方法

该研究通过开发一种对比自训练框架 (COSINE) 来解决使用弱监督 fine-tune 预训练语言模型 (LMs) 时的过拟合问题，实验证明该方法在自然语言处理的多个任务中表现优异。

Oct, 2020

面向图文生成的逐阶微调算法

本文提出了一种带有两个阶段微调机制的结构化图文模型，结合传统的标记和位置嵌入以及新颖的树级嵌入方法，显著提高了英语 WebNLG 2017 数据集的所有文本生成指标

May, 2021

多视角压缩表示与低资源微调的鲁棒性研究

本文提出了一种新颖的方法，通过在预训练语言模型的隐藏表示上操作，通过将自编码器插入到 PLM 的隐藏层之间，将以前层的激活转换为多视图压缩表示，然后输入到上层，以减少过拟合。此方法展示了在各种序列和标记级别的低资源 NLP 任务中的性能改进。

Nov, 2022

通过微调平行语料库中的嵌入来进行单词对齐

该论文探讨了一种嫁接预训练语言模型和平行文本的方法来提高单词对齐质量的方法，提出了从这些微调模型中有效提取对齐信息的新方法，并证明了它们在五种语言对上优于之前的最先进模型，还演示了开源的具备预训练模型的 AWESOME 单词嵌入式多语言编码对齐器的实际性能

Jan, 2021

在资源匮乏环境中通过大型语言模型的微调进行文本数据增强

通过细调教师大型语言模型产生和注释的数据，可以改善较小模型的下游性能，有时只需要原始训练数据的一小部分。

Oct, 2023